AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年,呆板之心AIxiv专栏接受报道了2000多篇内容,笼罩寰球各年夜高校与企业的顶级试验室,无效增进了学术交换与传布。假如你有优良的任务想要分享,欢送投稿或许接洽报道。投稿邮箱:[email protected];[email protected]新一代 Kaldi 团队是由 Kaldi 之父、IEEE fellow、小米团体首席语音迷信家 Daniel Povey 领衔的团队,专一于开源语音基本引擎研发,从神经收集声学编码器、丧失函数、优化器跟解码器等各方面重构语音技巧链路,旨在进步智能语音义务的正确率跟效力。现在,新一代 Kaldi 名目 (https://github.com/k2-fsa)重要由四个子名目形成:中心算法库 k2、通用语音数据处置东西包 Lhotse、处理计划聚集 Icefall 以及效劳端引擎 Sherpa,便利开辟者轻松练习、安排本人的智能语音模子。克日,小米团体新一代 Kaldi 团队对于语音辨认算法的论文《CR-CTC: Consistency regularization on CTC for improved speech recognition》被 ICLR 2025 接受。论文链接:https://arxiv.org/pdf/2410.05101论文代码:https://github.com/k2-fsa/icefall/pull/1766(已 merge 进 icefall 框架)择要主流的主动语音辨认(ASR)模子包含 CTC [1]、transducer [2] 跟混杂体系 CTC/AED [3]。CTC 是此中最简略、最便于安排的方式,但因为它的机能平日显明落伍于 Transducer 跟 CTC/AED,这限度了它的现实利用。为此,新一代 Kaldi 团队提出了 Consistency-Regularized CTC (CR-CTC),能够让纯 CTC 模子的辨认机能比肩 Transducer 跟 CTC/AED。CR-CTC 在多个主流的 ASR 数据集,包含 LibriSpeech、Aishell-1、GigaSpeech 等数据集上,获得新的 SOTA 成果(不依附外部练习数据跟外部言语模子)。比方,在 LibriSpeech 数据集上练习 Zipformer-L,尺度 CTC 的 WER 为 2.5/5.72,CTC/AED 的 WER 为 2.09/4.59, Pruned Transducer 的 WER 为 2.00/4.38;CR-CTC 的 WER 为 2.02/4.35;CTC/AED 跟 Pruned Transducer 挂上 CR-CTC 结合练习后,WER 可分辨进一步下降到 1.96/4.08 跟 1.88/3.95。方式实现如 Figure 1 所示,CR-CTC 方式十分简略,先从统一个输入 Mel-spectrogram x 失掉两个差别的 augmented views 。体系总体 loss 为:,还引入 consistency regularization loss 来束缚两个散布的分歧性:跟,除了盘算两个 CTC loss 跟,分辨输入参数共享的 encoder 模子 f,失掉对应的两个 CTC 概率散布 跟此中 α 为把持正则的超参数,默许设置为 0.2。Different augmented views咱们对统一个输入 x 的两个 copy 自力地应用 SpecAugment [4] 来取得差别的 augmented views 。相较于一般的 ASR 体系,咱们特地应用了更年夜水平的 time masking。跟。SpecAugment 包括 time warping、frequency masking 跟 time masking。因为 time warping 会明显转变输出的时光戳,因而咱们在创立 copy 前先利用 time warping,避免两个分支的输出散布在时光戳上重大不婚配。接着,分辨对两个 copy 自力利用 frequency masking 跟 time masking,失掉了 跟Consistency regularization loss咱们在CTC 散布的每一帧上利用 consistency regularization,经由过程最小化每一对散布 跟 。此处,sg 表现 stop-gradient,避免这一项的梯度影响目的散布。Consistencyregularization loss 公式为:之间的双向 KL 散度:跟方式说明论文从三个差别的角度来说明 CR-CTC 的实质行动:1)self-distillation;2)masked prediction;3)peak suppression。Self-distillation当咱们在练习中应用 dropout [5] 跟 stochastic depth [6] 等模子正则技巧,能够看作咱们正在隐式地练习随机采样的差别 sub-model,这些 sub-model 终极被集成为一个 ensemble 用于推理。与 R-Drop [7] 跟 cosub [8] 相似,CR-CTC 在停止对差别 sub-model 之间的 self-distillation,监视旌旗灯号为对方供给的帧级其余 token 散布。别的,CR-CTC 应用了差别的 augmented views(以及更年夜水平的 time-masking),让这些 sub-model 打仗输入数据的差别角度的信息,增强他们猜测的多样性,如许有利于更丰盛、更齐备的常识蒸馏。Masked prediction在 CR-CTC 中,那些笼罩在 time masking 地区的帧,被请求着基于其余不被 masked 的地区,去猜测对方供给的 token 散布。这个进程相似于 masked-based 自监视模子 [9,10,11],激励模子去进修非 mask 局部的高低文表征信息,并挖掘模子隐式的言语建模才能。咱们在 CR-CTC 中应用差别的 augmented views,增加双方同时被笼罩在 time masking 地区的帧的呈现,进步这些被 masked 地位所接受的 token 散布的品质。别的,应用更年夜水平的 time masking 能够增强 masked prediction 行动,进而加强模子对高低文表征信息的进修。 Peak suppression家喻户晓,CTC 平日会进修到十分尖的概率散布。如 Figure 2 (left) 所示,non-blank token 只占 1 帧,其余的都是 blank,它们的概率都十分高。这种景象标明模子有可能曾经过拟合了,泛化才能不强。CR-CTC 的 consistency regularization 领导着模子进修双方散布的均匀,这使得模子进修到的 CTC 散布会愈加腻滑。这个 peak suppression 行动增加了在练习数据上的适度相信,从而加强模子的泛化才能。如 Figure 2 (right) 所示,CR-CTC 进修到的散布愈加腻滑,概率更低,随同着更多 non-blank 的 repeat 呈现。试验成果论文重要应用 Zipformer [12] 作为 speech encoder 停止试验验证。因为 CR-CTC 练习时须要停止两次 forward,咱们对 CR-CTC 模子的 batch size 跟 epoch 数都设置为尺度 CTC 模子的一半,来确保两者练习价值可比拟。详细应用的 GPU 数目跟 epoch 数在论文附录中。与 SOTA 模子比拟较Table 1、2、3 分辨展现了差别模子在 LibriSpeech、Aishell-1、GigaSpeech 三个数据集上的表示(不依附外部练习数据跟外部言语模子)。总的来说,CR-CTC 的机能明显超出尺度 CTC,跟 CTC/AED 与 Transducer 模子后果相称。别的,挂上 CR-CTC 结合练习,能够进一步晋升 CTC/AED 跟 Transducer 的机能。在这三个数据集上,咱们获得了新的 SOTA 成果。融化试验Table 4、5、6 分辨展现了 CR-CTC 对于差别说明角度 self-distillation、masked prediction、peak suppression 的融化试验成果,详细阐明可参考论文。与挂一个 auxiliary head 结合练习比拟较想要晋升 CTC 体系的机能,一个最直接的方式就是挂一个 AED head 或许一个 Transducer head 结合练习。如 Table 7 所示,CR-CTC 的机能显明超越这两个方式,参数还更少。在 Conformer 模子上验证如 Table 17 所示,应用 Conformer [13] 作为 speech encoder 时,CR-CTC 同样能够明显晋升 CTC 的机能,而且稍微超越 CTC/AED 跟 Transducer。参考[1] Graves, A., Fernández, S., Gomez, F., Schmidhuber, J. (2006, June). Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the 23rd international conference on Machine learning (pp. 369-376).[2] Graves, A. (2012). Sequence transduction with recurrent neural networks. arXiv preprint arXiv:1211.3711.[3] Watanabe, S., Hori, T., Kim, S., Hershey, J. R., Hayashi, T. (2017). Hybrid CTC/attention architecture for end-to-end speech recognition. IEEE Journal of Selected Topics in Signal Processing, 11 (8), 1240-1253.[4] Park, D. S., Chan, W., Zhang, Y., Chiu, C. C., Zoph, B., Cubuk, E. D., Le, Q. V. (2019). Specaugment: A simple data augmentation method for automatic speech recognition. arXiv preprint arXiv:1904.08779.[5] Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., Salakhutdinov, R. (2014). Dropout: a simple way to prevent neural networks from overfitting. The journal of machine learning research, 15 (1), 1929-1958.[6] Huang, G., Sun, Y., Liu, Z., Sedra, D., Weinberger, K. Q. (2016). Deep networks with stochastic depth. In Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11–14, 2016, Proceedings, Part IV 14 (pp. 646-661). Springer International Publishing.[7] Wu, L., Li, J., Wang, Y., Meng, Q., Qin, T., Chen, W., ... Liu, T. Y. (2021). R-drop: Regularized dropout for neural networks. Advances in Neural Information Processing Systems, 34, 10890-10905.[8] Touvron, H., Cord, M., Oquab, M., Bojanowski, P., Verbeek, J., Jégou, H. (2023). Co-training 2L submodels for visual recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 11701-11710).[9] Devlin, J. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.[10] Baevski, A., Zhou, Y., Mohamed, A., Auli, M. (2020). wav2vec 2.0: A framework for self-supervised learning of speech representations. Advances in neural information processing systems, 33, 12449-12460.[11] Hsu, W. N., Bolte, B., Tsai, Y. H. H., Lakhotia, K., Salakhutdinov, R., Mohamed, A. (2021). Hubert: Self-supervised speech representation learning by masked prediction of hidden units. IEEE/ACM transactions on audio, speech, and language processing, 29, 3451-3460.[12] Yao, Z., Guo, L., Yang, X., Kang, W., Kuang, F., Yang, Y., ... Povey, D. (2023, October). Zipformer: A faster and better encoder for automatic speech recognition. In The Twelfth International Conference on Learning Representations.[13] Gulati, A., Qin, J., Chiu, C. C., Parmar, N., Zhang, Y., Yu, J., ... Pang, R. (2020). Conformer: Convolution-augmented transformer for speech recognition. arXiv preprint arXiv:2005.08100.