问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

声纹识别是个什么原理?

发布网友 发布时间:2024-10-05 17:22

我来回答

1个回答

热心网友 时间:2024-10-05 18:38

声纹识别是一种辨识特定说话者身份的技术,与语音识别不同,它关注的是将声音转换为身份识别信息。声纹识别应用分为两种场景:1:1验证和1:n验证。1:1验证即验证来电者是否为特定人,如电话号码显示为某人来电,却听出声音不对时,会让人紧张。而1:n验证则是识别陌生来电者身份,通过对方说话判断是否为熟人。

声纹识别涉及两种识别场景:文本相关与文本无关。文本相关场景需要说话者说出固定内容以供验证,难度相对较低。文本无关场景则无需特定内容,相当于文本相关场景中汽车正常行驶无异响,而经过特定路况时出现异常响声,通过这两类类比,文本无关的声纹识别更具挑战性。

声纹识别的核心是寻找描述特定对象的声纹特征。声纹特征分为听觉特征和声学特征。听觉特征是人类可以辨识的声音特性,如气声多或中气十足等描述。声学特征则是一组通过计算机算法从声音信号中提取的声学描述参数。尽管两者在描述上有所不同,但本质上是统一的,听觉特征同样可以由算法生成和提取。

声纹特征还包括语言学特征与非语言学特征,例如不同地区的方言差异,如两湖地区的人说话常混淆n/l,南方人分辨不清卷舌和平舌音等。这些特征有助于缩小1:n验证时的检索对象范围。

声纹特征还可以分为短时特征和长时特征。短时特征通常用于描述较短语音段,如失踪者离家时的着装等,而长时特征则描述较为稳定的身份特征,如身高、性别等。长时特征对说话语气、身体状况变化的敏感度较低,因此相对稳定。

在数学操作层面,声纹识别是对输入声音信号进行特定数学处理,以生成一组描述特征向量。识别方法的质量主要取决于特征向量的区分度与相似度,即类间差异(Interclass Varience)和类内差异(Intraclass Varience)。类间差异大,类内差异小的特征描述更为有效。

特征提取方法经历了模板匹配、高斯混合模型(GMM)、联合因子分析法(JFA)以及深度神经网络(DNN)等发展阶段。传统方法能够精确描述声音信号分析过程,具有较好的解释性,但需要的数据量较小。深度神经网络是一种数据驱动的方法,需要大量数据进行模型训练,其特征提取能力更为强大,只要数据充足且质量高,通常能取得较好的识别效果。

人脑的声纹识别系统与计算机声纹识别基本相似,但人脑的声纹特征提取更加灵活,能够结合多种描述进行分析,如短时、长时、语言学特征以及抽象声音特征等。然而,由于声纹信号的多变性、声音采集设备和环境噪声的影响,声纹识别在准确性与可靠性方面仍有待提高,因此在实际应用中不宜作为首选方案。

参考资料:[1] Campbell, Joseph P. "Speaker recognition: A tutorial." Proceedings of the IEEE 85.9 (1997): 1437-1462.

[2] Mariéthoz, Johnny, Samy Bengio, and Yves Grandvalet. "Kernel Based Text-Independnent Speaker Verification." No. LIDIAP-REPORT-2008-013. Idiap, 2008.

[3] Snyder, David, et al. "X-vectors: Robust DNN embeddings for speaker recognition." Submitted to ICASSP(2018).

[4] Maguinness, Corrina, Claudia Roswandowitz, and Katharina von Kriegstein. "Understanding the mechanisms of familiar voice-identity recognition in the human brain." Neuropsychologia (2018).

[5] Badcock, Johanna C., and Saruchi Chhabra. "Voices to reckon with: perceptions of voice identity in clinical and non-clinical voice hearers." Frontiers in Human Neuroscience 7 (2013): 114.
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
小篇幅造句 易车如何发布二手车 转让卖车信息流程 《易车》群聊消息关闭方法 易车消息夜间勿扰方法步骤 易车如何开启消息夜间勿扰 易车 开启@消息推送 ...当入射角是 时,反射角是 。我们能从各个方向看到本身不发光的物体... 发泄的近义词和反义词是什么_发泄是什么意思? 我的世界手游 我的世界手机版怎么做末地传送门? 我的世界手游 末地传送门怎么做? 安全评价师的报考科目有什么 It'sjustacaseofhowmuch翻译成中文 为什么我的电脑没有麦克风?怎么办? 工地工人自然死亡赔偿规定是什么? 小孩没自信胆子小怎么办 1.5自吸两万公里保养,用半合成好还是全合成好点? 呛口小辣椒的照片是怎么调成暖黄色调的? 小辣椒怎么把输入法键盘调大 适合九十多岁老人吃的糕点有什么? 男生 现在已经高三了 在觉得要考声乐特长生还是舞蹈特长生 声乐之前有... 学舞蹈和学声乐哪个好 带您了解一下木瓜泡白酒的做法(带您了解一下木瓜泡白酒的做法)_百度... 怎么才可以把普通朋友变成我的男朋友 让他喜欢我或者爱上我 离不开我... 四字词无X无X 和如X似X,请大家快速解答,谢谢 形容一点声音也没有的成语有哪些谢谢了,大神帮忙啊 形容非常安静的成语叫——无—?谢谢 广东木炭吊烧鸡的做法 吊烧鸡的做法和配料是什么 猫咪肝脏受损什么症状 乙肝小三阳患者日渐消瘦是什么原因,和乙肝有关吗 快手拉黑的人怎么看到自己的作品呢? 简述什么是声纹识别以及它的分类 ...时把麦克风音量关到最小再开对方就听不到声音了而我能听见他,只是语... 为什么小米路由器一直亮蓝灯? 假设明天是星期六,你有何打算呢?英语作文要翻译 至少五句 如何解决两个微信号实名认证同一个人? ...有一个被绑定成长守护平台了有一个没有但是身份证都一样 半人猛犸的冲刺好难刺到人,请教高手怎么用? dota我用半人猛犸双狂战与本身溅射怎么叠加的?带面罩的话溅射的吸血不... [真心求教]半人猛犸的獠牙冲刺,怎么用比较好? dota 半人猛犸出刷新的用意 魔兽世界刀塔中半人猛犸用什么装备最好? 城管革命我参与,环静改善我争先征文1000字 GitHub Top 10 + Vue 开源项目(2021版) 整理GitHub近期热门开源后台管理系统 ...be动词+过去分词吗?那下面这句话怎么是被动语态呢?I hear the s... Win8如何查看电脑CPU、显卡和内存配置? 梦到死了的人,又死了,我听到消息放声大哭 9200元预算下,酷睿i7-3770K+i560GTX-Ti Hawk游戏娱乐电脑值得购买吗... 微星N560GTX-Ti 和微星R7850 Hawk 2G 980两块显卡哪个好! 560ti显卡的选择:这4款选哪款性价比好·谢谢···