语音识别过程是个复杂的过程
Posted: Mon Jan 06, 2025 3:49 am
但其最终的任务归结为:找到对应观察序列的最可能的词序列。 主流的语音识别系统理论是建立在统计模式识别基础之上的,在统计模型框架下可以用贝叶斯公式来描述语音识别问题。 根据贝叶斯决策理论,我们的任务就是找到一个最有的单词序列,使得它在语音观察序列上的后验概率()最大,即: 上式中,(|)是声学模型概率,它描述的是一段语音信号对应的声学特征和单词序列的相似程度;()是语言模型概率,它描述的是单词序列可能出现的概率。
寻找最优的单词序列,即在所有可能的单词序列候选中寻找,使其声学模型和语言模型的概率乘积(|)()最大。 这中间包含三个问题:第一是如何遍历所有可能的单词序列;第二是如何计算声学模型概率;第三是如何计 萨尔瓦多电话号码数据 算语言模型概率。 为了解决这三个问题,典型的大词表连续语音识别()系统采用如下图所示的主流框架: 用户语音输入后,首先经过前端处理提取声学特征,得到一系列的观察向量;然后将声学特征送到解码器中进行搜索,完成所有可能的单词序列的遍历,得到识别结果。
解码器在搜索过程中,需要使用声学模型和词典计算概率(),使用语言模型计算概率()。 声学模型和语言模型由大量数据训练而成;发音词典根据语言学知识定义了每个单词到发音单元的映射关系。 整个系统的链路比较长,模块众多,需要精细调优每个组件才能取得比较好的识别效果。 一、声学模型 人耳接收到声音后,经过神经传导到大脑分析判断声音类型,并进一步分辨可能的发音内容。
寻找最优的单词序列,即在所有可能的单词序列候选中寻找,使其声学模型和语言模型的概率乘积(|)()最大。 这中间包含三个问题:第一是如何遍历所有可能的单词序列;第二是如何计算声学模型概率;第三是如何计 萨尔瓦多电话号码数据 算语言模型概率。 为了解决这三个问题,典型的大词表连续语音识别()系统采用如下图所示的主流框架: 用户语音输入后,首先经过前端处理提取声学特征,得到一系列的观察向量;然后将声学特征送到解码器中进行搜索,完成所有可能的单词序列的遍历,得到识别结果。
解码器在搜索过程中,需要使用声学模型和词典计算概率(),使用语言模型计算概率()。 声学模型和语言模型由大量数据训练而成;发音词典根据语言学知识定义了每个单词到发音单元的映射关系。 整个系统的链路比较长,模块众多,需要精细调优每个组件才能取得比较好的识别效果。 一、声学模型 人耳接收到声音后,经过神经传导到大脑分析判断声音类型,并进一步分辨可能的发音内容。