图像识别比语音识别算法的复杂度高多少倍

发布网友发布时间：2022-04-24 09:25

共2个回答

热心网友时间：2023-10-17 01:27

图象识别容易，因为图象可以在一个时间点成像。而语音没有可能在一个时间点的采样有用，语音多出来一个时间轴。而这个时间轴引入的难题就是：换个时间，换个人，换个背景噪音，都变得没法子识别了。目前，主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征，供声学模型处理。同时，它一般也包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。语言模型。语言模型对系统所针对的语言进行建模。理论上，包括正则语言，上下文无关文法在内的各种语言模型都可以作为语言模型，但目前各种系统普遍采用的还是基于统计的N元文法及其变体。解码器。解码器是语音识别系统的核心之一，其任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。从数学角度可以更加清楚的了解上述模块之间的关系。首先，统计语音识别的最基本问题是，给定输入信号或特征序列，符号集（词典），求解符号串使得：图像识别比语音识别算法的复杂度高多少倍

热心网友时间：2023-10-17 01:27

语音识别与图像识别的区别：

1)语音识别分很多种：命令识别，离散/连续语音识别，特定人/非特定人+离散/连续+语音识别

2)命令、离散识别，有些方法跟图像识别还有些像，连续语音识别差得就很多了

连续语音识别常用识别方法：

GMM/DNN/CNN+HMM，HMM用来处理时间维度上的关系，GMM/DNN/CNN用来做声学建模，解码还需要用到语言模型(Language
Model);非特定人，跟transfer learning还有点关系。