问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

语音识别原理 五分钟就能弄懂

发布网友 发布时间:2022-12-04 09:22

我来回答

1个回答

热心网友 时间:2024-03-26 05:01

1、首先,我们知道声音实际上是一种波。常见的mp3、wmv等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如Windows PCM文件,也就是俗称的wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。

2、在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD,需要用到信号处理的一些技术。

3、每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。

4、分帧后,语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须将波形作变换。常见的一种变换方法是提取MFCC特征。

5、至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。观察序列如下图所示,图中,每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小。

6、接下来就要介绍怎样把这个矩阵变成文本了。首先要介绍两个概念:音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集,参见The CMU Pronouncing Dictionary。

7、语音识别是怎么工作的呢?实际上一点都不神秘,无非是:第一步,把帧识别成状态(难点);第二步,把状态组合成音素;第三步,把音素组合成单词。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
键盘怎么完全拆卸清理并重新组装 高配置赛车游戏电脑游戏5款赛车游戏推荐家里电脑就能玩 现在组装一个电脑要多少钱 电脑什么配置好又便宜笔记本电脑什么配置好一点 电脑看电影配置专门看电影的电脑主机需要什么配置 衣服架子如何收纳 阳台的晾衣架如何收纳 如何收纳晾衣架 晒衣架如何收纳 苹果icloud的双重认证怎么关掉 Mac 音乐文件格式转换,转换mp3 纯电动汽车动力电池获取能量的方式有 请问纯电动汽车用什么电池 纯电动车运行时,动力电池电能主要去向及作用? 为什么志高空调总是比其他同配置的空调便宜 翡翠有小凹坑怎么回事 得道多助失道寡助译文简短 椰子树怎么画简单又漂亮图片 为什么苹果6S手机电脑不能同时登QQ 科技幻想画手抄报大全 十几减9有几种计算方法 具体名称和方法 青海邮政10月快递停运了吗 邮政快递到地方了没有疫情他说有疫情快递很地放几天是怎么回事?_百度... 山南贡嘎县邮政速递物流外包人员发生了什么? 为什么邮政快递会停在一个地方四天了? 帕萨特跟奥迪a6哪个底盘高些 君威和帕萨特哪个底盘高 帕萨特底盘最低高度 你了解多少 帕萨特和思域哪个底盘高 孩子叛逆了怎么教育 Python 队列queue与多线程组合(生产者+消费者模式) python3多线程通信方式,主要理解队列的join()和task_done()方法... 教资及格分数怎么算 机场地铁招保洁员是不是骗人上海? 中秋为什么要博饼 中秋博饼介绍 能问下,景德镇一中的武智理老师,现在还教书吗?还是已经坐办公室了_百... 景德镇市第一中学的办学条件 Polo的发动机型号 大众宝来dmb是什么发动机 excel 打开时会连接其他路径的文件,请问怎么取消。不是超链接。 建行聚合码丢了怎么打印 好看的穿越抗战小说 测绘工程技术专业是文科还是理科 就业方向有哪些 女童在幼儿园玩滑梯摔倒身亡,家属是怎么说的? 安安全全滑滑梯幼儿园社会教案 河北省2022年护理本科刚升入大专的学生可以报名吗 拖把杆中间的卡扣怎么拆卸 两个怎么同时登录 怎么才能在一台手机上同时登录两个呢? 关于食品安全的手抄报内容和口号大全