请输入您要查询的百科知识:

 

词条 动态时间规整
释义

一、动态时间规整的提出

语音信号具有很强的随机性,不同的发音习惯,发音时所处的环境不同,心情不同都会导致发音持续时间长短不一的现象。如单词最后的声音带上一些拖音,或者带上一点呼吸音,此时,由于拖音或呼吸音会被误认为一个音素,造成单词的端点检测不准,造成特征参数的变化,从而影响测度估计,降低识别率,因此在语音识别时,首先有必要对语音信号进行时间规整。

二、动态时间规整的定义

一次正确的发音应该包含构成该发音的全部音素以及正确的音素连接次序。其中各音素持续时间的长短与音素本身以及讲话人的状况有关。为了提高识别率,克服发同一音而发音时间长短的不同,采用对输入语音信号进行伸长或缩短直到与标准模式的长度一致。这个过程称为时间规整。

三、动态时间规整的原理描述

60年代由日本学者提出,算法的思想是把未知量伸长或缩短(压扩),直到与参考模板的长度一致,在这一过程中,未知单词的时间轴会产生扭曲或弯折,以便其特征量与标准模式对应。

原理描述

DTW 是把时间规整和距离测度计算结合起来。测试语音参数共有I帧矢量,而参考模板共有J帧矢量,I和J不等,寻找一个时间规整函数j=w(i),它将测试矢量的时间轴i非线性地映射到模板的时间轴j上,并使该函数w(i)满足:第i帧测试矢量T(i)和第j帧模板矢量R(j)之间的距离测度D

最优时间规整情况下所有矢量帧间的距离,也称为代价函数计算两倒谱矢量帧(i和j) 间的欧氏距离,两矢量帧中分别具有p个倒谱参数。

为了使T(测试)的第i个样本与R(参考)的第j个样本对正,其对应的点不在直线对角线上,得到一条弯曲的曲线j=w(i) 。j=w(i)称为规整函数。

时间规整的依据

设 T={a1 , a2 , …… , ai , …… , aI} i=1~I

R={b1 , b2 , …… , bj , …… , bJ} j=1~J

I≠J

时间规整要解决的问题是使元素a和元素b之间匹配,使每对匹配样本之间的差别最小,达到欧氏距离最小。

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/3/27 21:04:08