语音识别的原理是什么
发布网友
发布时间:2022-04-20 07:02
我来回答
共2个回答
热心网友
时间:2022-07-25 02:18
语音识别的原理可以从两方面理解,分别是数据库、算法与自学习。
1、数据库,其实语音识别的原理是非常好理解的,它是和指纹识别定位原理一样的,设备会把目标语音收集起来,接着对这些收集来的语音实施处理,然后会得到目标语音的一些信息,下面就会把这些特征信息和数据库中已经存在的数据进行相似度的搜索对比,当评分最高的信息出现,那就是识别结果,会经由其他系统的接入把没有完成的设备语音识别功能。
在实际的操作中,语音识别是非常复杂的,毕竟语音本身就较为复杂,它和指纹识别最大的区别就是,指纹识别只需要把指纹录入然后由数据库进行对比识别,可是语音识别就不能如此简单。
由于语音的复杂性,所以语音的数据库是非常庞大的,并且这种数据库还不能放到移动端,这也是使用手机语音助手就必须要进行联网的最大原因。语音识别自出现以来发展到现在,也是有出现过可以离线使用的,但是经过实际的使用后发现,离线版的无法保证准确率,一个可能会出错的识别功能自然无法使用。
2、算法和自学习,语音识别会对收集到的目标进行预处理,其中包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等等,总之是非常复杂的,所以之后对于需要处理的语言都会进行特征的提取。
声音是具有震动性的,主要的形状为波形,语言识别也就是对这种波形进行分帧,多个帧构成一个状态,三个状态构成一个音素。英语常用音素集是卡内基梅隆大学的一套由39个音素构成的音素集,汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调音调。然后经由音素系统吧这些合成单词或者是汉字,下面经过相应的算法处理即可。
自学习系统主要是针对数据库的,吧语言变为文字的语言识别系统必须拥有两个数据库,一个用来提取声音进行匹配,一个是能够与之匹配的文本语言数据库。这两个数据库都需要提前对数据机型进行训练分析,简单地理解为自学习系统。
热心网友
时间:2022-07-25 03:36
所谓语音识别,就是将一段语音信号转换成相对应的文本信息,系统主要包含特征提取、声学模型、语言模型以及字典与解码四大部分,其中为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等预处理工作,把要分析的信号从原始信号中提取出来;之后,特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量;声学模型中再根据声学特征性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示。其中声学模型与语言模型的关系,将通过贝叶斯公式表示为:
其中,P(X|W)称之为声学模型,P(W)称之为语言模型。大多数的研究将声学模型和语言模型分开处理,并且,不同厂家的语音识别系统主要体现在声学模型的差异性上面。此外,基于大数据和深度学习的端到端(End-to-End)方法也在不断发展,它直接计算P(X|W),即将声学模型和语言模型作为整体处理。