声纹识别是个什么原理?

发布网友发布时间：2024-10-05 17:22

共1个回答

热心网友时间：2024-10-05 18:38

声纹识别是一种辨识特定说话者身份的技术，与语音识别不同，它关注的是将声音转换为身份识别信息。声纹识别应用分为两种场景：1:1验证和1:n验证。1:1验证即验证来电者是否为特定人，如电话号码显示为某人来电，却听出声音不对时，会让人紧张。而1:n验证则是识别陌生来电者身份，通过对方说话判断是否为熟人。

声纹识别涉及两种识别场景：文本相关与文本无关。文本相关场景需要说话者说出固定内容以供验证，难度相对较低。文本无关场景则无需特定内容，相当于文本相关场景中汽车正常行驶无异响，而经过特定路况时出现异常响声，通过这两类类比，文本无关的声纹识别更具挑战性。

声纹识别的核心是寻找描述特定对象的声纹特征。声纹特征分为听觉特征和声学特征。听觉特征是人类可以辨识的声音特性，如气声多或中气十足等描述。声学特征则是一组通过计算机算法从声音信号中提取的声学描述参数。尽管两者在描述上有所不同，但本质上是统一的，听觉特征同样可以由算法生成和提取。

声纹特征还包括语言学特征与非语言学特征，例如不同地区的方言差异，如两湖地区的人说话常混淆n/l，南方人分辨不清卷舌和平舌音等。这些特征有助于缩小1:n验证时的检索对象范围。

声纹特征还可以分为短时特征和长时特征。短时特征通常用于描述较短语音段，如失踪者离家时的着装等，而长时特征则描述较为稳定的身份特征，如身高、性别等。长时特征对说话语气、身体状况变化的敏感度较低，因此相对稳定。

在数学操作层面，声纹识别是对输入声音信号进行特定数学处理，以生成一组描述特征向量。识别方法的质量主要取决于特征向量的区分度与相似度，即类间差异（Interclass Varience）和类内差异（Intraclass Varience）。类间差异大，类内差异小的特征描述更为有效。

特征提取方法经历了模板匹配、高斯混合模型（GMM）、联合因子分析法（JFA）以及深度神经网络（DNN）等发展阶段。传统方法能够精确描述声音信号分析过程，具有较好的解释性，但需要的数据量较小。深度神经网络是一种数据驱动的方法，需要大量数据进行模型训练，其特征提取能力更为强大，只要数据充足且质量高，通常能取得较好的识别效果。

人脑的声纹识别系统与计算机声纹识别基本相似，但人脑的声纹特征提取更加灵活，能够结合多种描述进行分析，如短时、长时、语言学特征以及抽象声音特征等。然而，由于声纹信号的多变性、声音采集设备和环境噪声的影响，声纹识别在准确性与可靠性方面仍有待提高，因此在实际应用中不宜作为首选方案。

参考资料：[1] Campbell, Joseph P. "Speaker recognition: A tutorial." Proceedings of the IEEE 85.9 (1997): 1437-1462.

[2] Mariéthoz, Johnny, Samy Bengio, and Yves Grandvalet. "Kernel Based Text-Independnent Speaker Verification." No. LIDIAP-REPORT-2008-013. Idiap, 2008.

[3] Snyder, David, et al. "X-vectors: Robust DNN embeddings for speaker recognition." Submitted to ICASSP(2018).

[4] Maguinness, Corrina, Claudia Roswandowitz, and Katharina von Kriegstein. "Understanding the mechanisms of familiar voice-identity recognition in the human brain." Neuropsychologia (2018).

[5] Badcock, Johanna C., and Saruchi Chhabra. "Voices to reckon with: perceptions of voice identity in clinical and non-clinical voice hearers." Frontiers in Human Neuroscience 7 (2013): 114.