0%

DTW 算法用于解决语音序列不对齐的问题。因为不同的人发言速度不一样,所以很难直接比对两个序列的相似性。

Read more »

维特比算法就是解码算法,它需要解决的是在给定观察 \(O\) 和 HMM 模型的条件下寻找一条最优的状态序列 \(Q\),使得 \(P(O|Q)\) 概率最大。当然我们可以遍历所有可能状态序列,但这个运算量太大,显然不现实。这里我们就需要用到维特比算法了。

Read more »

MFCC 是语音识别里比较重要的概念,用于声学建模。基本步骤如下

  1. 将音频按照 10ms步进,20-30ms 长度切片
  2. 计算每一帧的功率谱周期图(periodogram estimate of the power spectrum)
  3. 计算 mel filterbank
  4. 计算 filterbank energy, 对 filterbank energy 求对数
  5. 计算 log filterbank energy 的 DCT 系数,取前 12 或者 26 个系数
Read more »

上一篇我们讲了隐马尔可夫模型(HMM)的推导计算。对于一个单高斯隐马尔可夫模型而言,其参数集合包含 \(A=[a_{ij}]\) 转移概率矩阵,高斯分布均值向量 \(\boldsymbol{\mu}_{i,m}\),高斯分布的协方差 \(\boldsymbol{\Sigma}_{i,m}\)。 这一篇我们来讲讲如何从数据中训练得到这些参数。

Read more »