ICLR 2025｜小米新一代Kaldi语音辨认算法CR_365游戏中心官方网站入口

AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年，呆板之心AIxiv专栏接受报道了2000多篇内容，笼罩寰球各年夜高校与企业的顶级试验室，无效增进了学术交换与传布。假如你有优良的任务想要分享，欢送投稿或许接洽报道。投稿邮箱：[email protected]；[email protected]新一代 Kaldi 团队是由 Kaldi 之父、IEEE fellow、小米团体首席语音迷信家 Daniel Povey 领衔的团队，专一于开源语音基本引擎研发，从神经收集声学编码器、丧失函数、优化器跟解码器等各方面重构语音技巧链路，旨在进步智能语音义务的正确率跟效力。现在，新一代 Kaldi 名目（https://github.com/k2-fsa）重要由四个子名目形成：中心算法库 k2、通用语音数据处置东西包 Lhotse、处理计划聚集 Icefall 以及效劳端引擎 Sherpa，便利开辟者轻松练习、安排本人的智能语音模子。克日，小米团体新一代 Kaldi 团队对于语音辨认算法的论文《CR-CTC: Consistency regularization on CTC for improved speech recognition》被 ICLR 2025 接受。论文链接：https://arxiv.org/pdf/2410.05101论文代码：https://github.com/k2-fsa/icefall/pull/1766（已 merge 进 icefall 框架）择要主流的主动语音辨认（ASR）模子包含 CTC [1]、transducer [2] 跟混杂体系 CTC/AED [3]。CTC 是此中最简略、最便于安排的方式，但因为它的机能平日显明落伍于 Transducer 跟 CTC/AED，这限度了它的现实利用。为此，新一代 Kaldi 团队提出了 Consistency-Regularized CTC (CR-CTC)，能够让纯 CTC 模子的辨认机能比肩 Transducer 跟 CTC/AED。CR-CTC 在多个主流的 ASR 数据集，包含 LibriSpeech、Aishell-1、GigaSpeech 等数据集上，获得新的 SOTA 成果（不依附外部练习数据跟外部言语模子）。比方，在 LibriSpeech 数据集上练习 Zipformer-L，尺度 CTC 的 WER 为 2.5/5.72，CTC/AED 的 WER 为 2.09/4.59, Pruned Transducer 的 WER 为 2.00/4.38；CR-CTC 的 WER 为 2.02/4.35；CTC/AED 跟 Pruned Transducer 挂上 CR-CTC 结合练习后，WER 可分辨进一步下降到 1.96/4.08 跟 1.88/3.95。方式实现如 Figure 1 所示，CR-CTC 方式十分简略，先从统一个输入 Mel-spectrogram x 失掉两个差别的 augmented views 。体系总体 loss 为：，还引入 consistency regularization loss 来束缚两个散布的分歧性：跟，除了盘算两个 CTC loss 跟，分辨输入参数共享的 encoder 模子 f，失掉对应的两个 CTC 概率散布跟此中 α 为把持正则的超参数，默许设置为 0.2。Different augmented views咱们对统一个输入 x 的两个 copy 自力地应用 SpecAugment [4] 来取得差别的 augmented views 。相较于一般的 ASR 体系，咱们特地应用了更年夜水平的 time masking。跟。SpecAugment 包括 time warping、frequency masking 跟 time masking。因为 time warping 会明显转变输出的时光戳，因而咱们在创立 copy 前先利用 time warping，避免两个分支的输出散布在时光戳上重大不婚配。接着，分辨对两个 copy 自力利用 frequency masking 跟 time masking，失掉了跟Consistency regularization loss咱们在CTC 散布的每一帧上利用 consistency regularization，经由过程最小化每一对散布跟。此处，sg 表现 stop-gradient，避免这一项的梯度影响目的散布。Consistencyregularization loss 公式为：之间的双向 KL 散度：跟方式说明论文从三个差别的角度来说明 CR-CTC 的实质行动：1）self-distillation；2）masked prediction；3）peak suppression。Self-distillation当咱们在练习中应用 dropout [5] 跟 stochastic depth [6] 等模子正则技巧，能够看作咱们正在隐式地练习随机采样的差别 sub-model，这些 sub-model 终极被集成为一个 ensemble 用于推理。与 R-Drop [7] 跟 cosub [8] 相似，CR-CTC 在停止对差别 sub-model 之间的 self-distillation，监视旌旗灯号为对方供给的帧级其余 token 散布。别的，CR-CTC 应用了差别的 augmented views（以及更年夜水平的 time-masking），让这些 sub-model 打仗输入数据的差别角度的信息，增强他们猜测的多样性，如许有利于更丰盛、更齐备的常识蒸馏。Masked prediction在 CR-CTC 中，那些笼罩在 time masking 地区的帧，被请求着基于其余不被 masked 的地区，去猜测对方供给的 token 散布。这个进程相似于 masked-based 自监视模子 [9,10,11]，激励模子去进修非 mask 局部的高低文表征信息，并挖掘模子隐式的言语建模才能。咱们在 CR-CTC 中应用差别的 augmented views，增加双方同时被笼罩在 time masking 地区的帧的呈现，进步这些被 masked 地位所接受的 token 散布的品质。别的，应用更年夜水平的 time masking 能够增强 masked prediction 行动，进而加强模子对高低文表征信息的进修。 Peak suppression家喻户晓，CTC 平日会进修到十分尖的概率散布。如 Figure 2 (left) 所示，non-blank token 只占 1 帧，其余的都是 blank，它们的概率都十分高。这种景象标明模子有可能曾经过拟合了，泛化才能不强。CR-CTC 的 consistency regularization 领导着模子进修双方散布的均匀，这使得模子进修到的 CTC 散布会愈加腻滑。这个 peak suppression 行动增加了在练习数据上的适度相信，从而加强模子的泛化才能。如 Figure 2 (right) 所示，CR-CTC 进修到的散布愈加腻滑，概率更低，随同着更多 non-blank 的 repeat 呈现。试验成果论文重要应用 Zipformer [12] 作为 speech encoder 停止试验验证。因为 CR-CTC 练习时须要停止两次 forward，咱们对 CR-CTC 模子的 batch size 跟 epoch 数都设置为尺度 CTC 模子的一半，来确保两者练习价值可比拟。详细应用的 GPU 数目跟 epoch 数在论文附录中。与 SOTA 模子比拟较Table 1、2、3 分辨展现了差别模子在 LibriSpeech、Aishell-1、GigaSpeech 三个数据集上的表示（不依附外部练习数据跟外部言语模子）。总的来说，CR-CTC 的机能明显超出尺度 CTC，跟 CTC/AED 与 Transducer 模子后果相称。别的，挂上 CR-CTC 结合练习，能够进一步晋升 CTC/AED 跟 Transducer 的机能。在这三个数据集上，咱们获得了新的 SOTA 成果。融化试验Table 4、5、6 分辨展现了 CR-CTC 对于差别说明角度 self-distillation、masked prediction、peak suppression 的融化试验成果，详细阐明可参考论文。与挂一个 auxiliary head 结合练习比拟较想要晋升 CTC 体系的机能，一个最直接的方式就是挂一个 AED head 或许一个 Transducer head 结合练习。如 Table 7 所示，CR-CTC 的机能显明超越这两个方式，参数还更少。在 Conformer 模子上验证如 Table 17 所示，应用 Conformer [13] 作为 speech encoder 时，CR-CTC 同样能够明显晋升 CTC 的机能，而且稍微超越 CTC/AED 跟 Transducer。参考[1] Graves, A., Fernández, S., Gomez, F., Schmidhuber, J. (2006, June). Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the 23rd international conference on Machine learning (pp. 369-376).[2] Graves, A. (2012). Sequence transduction with recurrent neural networks. arXiv preprint arXiv:1211.3711.[3] Watanabe, S., Hori, T., Kim, S., Hershey, J. R., Hayashi, T. (2017). Hybrid CTC/attention architecture for end-to-end speech recognition. IEEE Journal of Selected Topics in Signal Processing, 11 (8), 1240-1253.[4] Park, D. S., Chan, W., Zhang, Y., Chiu, C. C., Zoph, B., Cubuk, E. D., Le, Q. V. (2019). Specaugment: A simple data augmentation method for automatic speech recognition. arXiv preprint arXiv:1904.08779.[5] Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., Salakhutdinov, R. (2014). Dropout: a simple way to prevent neural networks from overfitting. The journal of machine learning research, 15 (1), 1929-1958.[6] Huang, G., Sun, Y., Liu, Z., Sedra, D., Weinberger, K. Q. (2016). Deep networks with stochastic depth. In Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11–14, 2016, Proceedings, Part IV 14 (pp. 646-661). Springer International Publishing.[7] Wu, L., Li, J., Wang, Y., Meng, Q., Qin, T., Chen, W., ... Liu, T. Y. (2021). R-drop: Regularized dropout for neural networks. Advances in Neural Information Processing Systems, 34, 10890-10905.[8] Touvron, H., Cord, M., Oquab, M., Bojanowski, P., Verbeek, J., Jégou, H. (2023). Co-training 2L submodels for visual recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 11701-11710).[9] Devlin, J. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.[10] Baevski, A., Zhou, Y., Mohamed, A., Auli, M. (2020). wav2vec 2.0: A framework for self-supervised learning of speech representations. Advances in neural information processing systems, 33, 12449-12460.[11] Hsu, W. N., Bolte, B., Tsai, Y. H. H., Lakhotia, K., Salakhutdinov, R., Mohamed, A. (2021). Hubert: Self-supervised speech representation learning by masked prediction of hidden units. IEEE/ACM transactions on audio, speech, and language processing, 29, 3451-3460.[12] Yao, Z., Guo, L., Yang, X., Kang, W., Kuang, F., Yang, Y., ... Povey, D. (2023, October). Zipformer: A faster and better encoder for automatic speech recognition. In The Twelfth International Conference on Learning Representations.[13] Gulati, A., Qin, J., Chiu, C. C., Parmar, N., Zhang, Y., Yu, J., ... Pang, R. (2020). Conformer: Convolution-augmented transformer for speech recognition. arXiv preprint arXiv:2005.08100.

frsky

25 九月, 2014 in 公司动态

2025-02-08 | 公司动态软装资讯软装常识

Comments are closed.

ICLR 2025｜小米新一代Kaldi语音辨认算法CR

Related Posts

最新资讯