词条 | 语音生成技术 |
释义 | 现有能说话的计算机往往只能按照一个模式说话。而终端用户却往往期望计算机可以按照多种不同风格、不同个性来说话。本文将详细介绍个性化语音生成研究中所涉及的各种技术,带领读者走进这个神秘的领域。 技术组成 使电脑具有“说话”的功能,这在真正的“面对面人机交流”中扮演着很重要的角色。借助于语音合成系统,计算机已经可以清晰、自然地说话,普通用户很容易听懂并接受。然而,现有能说话的计算机往往只能按照一个模式说话。而终端用户却往往对这种能说话的计算机有更高的需求,比如,用户可能希望计算机能够以用户的声音进行朗读。这种情况下,如何满足用户的期望使计算机可以按照多种不同风格、不同个性来说话呢?这就要借助于个性化语音生成技术。 个性化语音生成技术是人机交互中的重要组成部分,有关这方面的研究已经引起了国内外很多研究组的关注。除人机交互外,个性化语音生成技术在其他很多领域也有着相当广泛的应用: 比如在网络聊天中隐藏自己的真实身份,甚至可以应用到间谍领域,用来模拟敌方成员的声音。 语音中的信息主要来自于两个方面: 声源信息和声道信息。声源信息来自于声带的震动,主要体现在音高的高低变化,也就是人们平常所说的“抑扬顿挫”,通常用基频值来衡量。另一方面,声道信息来自于人体声道的形状,声道承载的信息包括说话的内容以及说话人的特征,在声学上表现为不同的频谱分布。研究人员为了使合成系统可以模拟各种说话人的特色,最初将重点放在声道信息的模拟转换上,基于此用户需求就产生了许多针对语音转换(Voice Conversion)技术的研究。 语音转换技术是对语音合成技术的丰富和延拓,通过改变频谱特征使一个说话人说出的声音听起来像是由另外一个人发出一样。看过“名侦探柯南”的读者都知道柯南经常用模仿别人声音的变声器,这正是语音转换技术的一个重要应用。近年来,随着技术的进步和研究人员认识的深入,声源信息的模拟也引起了很多研究人员的重视。要想模仿一个人的声音,除了模仿他的音色特征之外,还要模拟他说话的方式,模仿他抑扬顿挫的风格,这项研究通常被称为韵律转换(Prosody Conversion)。通过一系列技术措施,使得只要通过录制目标说话人少量的句子,就可以使计算机学习到该说话人的频谱特征和韵律特征,进而可以使机器所发出的声音具有该说话人的特色。 除此之外,语音变换也是另外一个重要的研究领域。语音变换的任务并不是将源说话人声音变为另外一个特定人的声音,而只是对其进行某种变换使之产生某种特效,比如说通过对基频的变换使原先的男声听起来像女声或者使原先的女声听起来像男声,或者通过对频谱进行变换使原先的人声变得像机器人的声音。语音变换在数字娱乐领域有着很广泛的应用。而另一个领域——个性化自适应的研究又有所不同,语音转换中的输入是源说话人,系统通过某种变换使之听起来像是目标说话人的声音,而个性化自适应系统的输入是文本,系统通过某种变换使合成系统发出的声音像是目标说话人的声音。可见,个性化自适应可以看作是语音转换技术同语音合成技术的一个联合扩展,其应用更为广泛。 有关个性化语音生成技术的研究已经是整个语音语言研究中非常重要的组成部分,国内外均有一些这方面的前期研究成果,但限于计算复杂度、存储量及计算实时性等多方面原因,早期工作大部分还停留在实验室阶段。近几年来,随着许多研究机构对此项研究的重视,研究越来越深入,在一些实际应用场合已经开始逐步获得了应用。 本文通过对中科院自动化所在语音转换等技术方面的介绍,系统性阐述语音转换和韵律转换、语音变换、个性化语音生成等方面的原理和实现过程。通过本文的介绍,读者可以详细了解个性化语音生成研究的整个流程步骤。 语音转换(voice Conversion)和韵律转换(Prosody Conversion) 语音转换 语音转换主要是指声道信息的转换,也即是频谱信息的转换。其目标是确定一个模式转换规则,使转换后的语音保持源说话人原有语音信息内容不变,而具有目标说话人的声音特点。为了找到这个转换规则,我们需要首先录制源说话人和目标说话人的一组平行语料库。所谓平行语料是指两个说话人所录的内容完全相同,比如说分别录制源说话人和目标说话人说“今天天气很好”这句话。这样的录制方式便于找到两个说话人频谱特征的对应关系。整个过程可以分为训练和转换两个步骤来进行,图1展示了语音转换过程的功能和框架图。在训练阶段,系统对源说话人和目标说话人的语音样本进行训练,得到映射规则,获取源语音和目标语音频谱参数之间的关系。在转换阶段,利用上一步得到的映射规则对源语音的频谱特征进行变换,使变换后的语音具有目标说话人的特征。可见,语音转换技术中最关键的部分就是映射规则的确定。 图1 语音转换框架图 中科院自动化所经过多年的研究,提出了一种使用码本映射和高斯混合模型共同转换声学特征细节的混合映射算法。码本映射和高斯混合模型分别是语音转换研究领域两种主流的做法,各有其优缺点。码本映射的方法可以这样理解: 将源语音和目标语音分别分为很多个段落,这些段落即可称之为码本。进行语音转换时,将源语音的段落直接替换为目标语音中的相应段落,这样转换后的语音就完全由目标语音中的段落组成,因此也必然具有目标说话人的特征。为了更清晰地阐述这个概念,我们假设段落的基本单元是音节,现在源说话人说了一句: “今天天气不错”,转换过程中只要分别找到目标说话人语料库中以上六个音节的合适语音段,再将其连起来即可。当然,真正的码本映射算法并没有像上面描述的这么简单,当存在多个候选段落时,如何选取最合适的段落是最关键的问题,同时还要考虑拼接后语音是否连续,并且在真正的应用中段落的基本单位常常是一段固定长度的语音段(通常称其为祯)。尽管有以上不同,但其基本思想是一样的。基于码本映射的方法简单有效,时至今日仍然是非常流行的方法。 与码本映射的方法相比,基于高斯混合模型(Gaussian Mixture Model, GMM)的方法则有所不同,它不是通过直接替换语音段落来使转换后的声音具有目标说话人声音的,相反,它是假设存在一个函数y=f(x),可以将源说话人的声学特征x变为具有目标说话人声学特征的y。根据录制的平行语料库可以估计得到函数f的参数和形式,转换过程中只要对源说话人语音应用该函数即可。 前面已经提到,上述两个方法各有优缺点,码本映射的方法直接使用目标说话人的语音段,转换后的语音在听感上基本等同于目标说话人,但在相邻语音段之间可能会引入不连续现象; 而基于高斯混合模型的方法,在估计f(x)过程中可能忽视了很多细节信息,导致转换后的语音具有过平滑现象。我们详细研究了两种方法的优缺点及其产生原因,在所提出的这种混合映射算法中,将两种方法的优缺点进行互补,使用码本映射方法构建细节特征来补偿高斯混合模型产生的过平滑现象,实验证明,该方法有效地克服了过平滑现象,并且同时还提高了频谱转换的精确度。 韵律转换(Prosody Conversion) 现在的个性化语音生成工作主要集中在频谱转换上,对韵律转换的研究较少,转换中通常忽略基频信息或是仅作简单变换。事实上,韵律信息是非常重要的声音特征,不同人有各自不同的韵律风格。韵律特征中包括言语中除了音色外的其余三个特征——音高、音强和音长。在汉语中,则具体体现在重音、时长、语调和停顿等几个方面。韵律特征尤其是基频曲线含有大量的说话人身份信息,对确定说话人身份起了很重要的作用。要想真正达到使合成的声音具有目标说话人的特性,必须对韵律信息也进行合适的转换。韵律转换的目的就是利用某种映射关系把源说话人的基频曲线转换为目标说话人的基频曲线。最基本的求解映射关系的做法是保持基频曲线的基本形状不变,只是调整源说话人的基频值的范围使之更接近目标说话人。然而目前,随着统计学习和机器学习技术的发展,许多基于统计和机器学习的算法可供基频转换研究使用,鉴于此,中科院自动化所提出了一种使用分类与回归树(Classification and Regression Tree,CART)来进行韵律转换的方法,CART是一种常用的决策树,是模式识别研究领域中进行分类和回归的一种十分有效的方法。使用CART主要有两个步骤: 训练和决策。 训练的过程就是生成一棵二叉树的过程,根结点包含所有的待分类样本,其中样本的目标值为源韵律参数与目标韵律参数的差异,预测属性为各种上下文信息,比如说声调类型、音节类型等。通过对样本属性问题的提问,不断分裂节点,最终形成若干叶子节点,每一叶子节点代表一类。分裂的准则是使得节点内样本的平均距离最小,当某一叶子节点的样本总数小于预先设定的阈值时停止分裂,如何设计提问属性是一个关键的问题,参与提问的属性应该是文本信息中对基频曲线的变化有较大影响的那些上下文环境信息。决策的过程就是模型的应用,即根据目标样本的属性,从根结点开始找到对应的叶子节点。基于决策树的韵律转换模型如图2所示 语音变换完成的功能同语音转换是不一样的,语音转换是特定的源说话人声音向特定的目标说话人声音的转换,转换过程有着明确的目标; 而语音变换则不一样,语音变换中一般没有明确的目标,大部分情况下,都是对源语音施加一种产生某种趋向的变换,使之具有某种特征或者表达某种特效。 中科院自动化所在语音变换领域也投入了很多研发力量,研制了一个在线实时的语音变换系统,可以实时的将一个人的语音进行多种特色的变换,如: 男声变女声、女声变男声、变成机器人声音、变成带有哮喘的声音等。该系统还有一个特色,就是还可以融入韵律特征的变换,让一个人在语音发生变换时,语气特征也发生变换,听起来就像不同的方言口音。所有运算完全实时进行,用户使用麦克风采集数据,在音频输出上可以当即得到变换后的语音。这些特殊的功能在网络实时聊天中有很大的应用前景。 个性化自适应 为了进一步提高所生成个性化语音的表现力并拓展个性化语音生成的应用领域,中科院自动化所提出了个性化自适应的框架。上面所介绍的频谱转换和韵律转换是个性化自适应研究的基础,但是个性化自适应的研究与二者有着本质的不同: 在一般的频谱转换和韵律转换中采用的都是平行训练语料库,即源语料和目标语料的大小和文本是完全一致的,这有利于建立准确的对应关系; 而在个性化自适应中,源训练语料采用的是可用于合成系统的大语料库,该语料库通常有几千句,甚至有可能是多人的。目标训练语料库则比较小,一般只有几百句甚至只有几十句,可能是源语料库的一个小的子集。个性化自适应与语音转换的目的都是使合成语音与目标说话人的声音相似,但是二者的输入是不同的,在韵律转换中输入的是源说话人的声音,而在韵律自适应中输入的是纯文本,由合成系统根据文本来预测发音和韵律结构等基本信息。总之,个性化自适应的目的是在已有合成系统和大语料库的基础上由合成系统输出与目标说话人相似的合成语音。相比一般的频谱转换和韵律转换而言,个性化自适应中可利用的信息更多,因此也就可以得到更好的结果并具有更广泛的应用领域。图3清楚地显示了语音转换和个性化自适应的不同。需要指出的是,尽管二者的工作存在着显著的差异,但是许多应用于语音转换的方法和思想仍然可以用于个性化自适应工作。 为了讲述清楚个性化自适应的概念,我们考虑更一般的情景。如果可以录制目标说话人较多的句子,比如说超过1000句。那么我们可以在这1000多句语料的基础上构建一个完整的韵律模型和频谱模型,则合成的语音自然就具有目标说话人的特征。然而,实际情况中,我们不可能为目标说话人录制如此多的句子。因此,个性化自适应的工作重点就是如何在较少语料情况下构建一个完备的韵律模型。为了达到这个目的,必须充分利用比较大的源语料库。 为了达到个性化自适应的目的,通常大的源语料库不止一个。个性化自适应方法的基本思想是: 在N个大型源语料库中找到一个与目标语料库风格最相似的语料库,由这两组语料库中的平行部分建立对应关系,然后应用前面所介绍的频谱转换和韵律转换的方法,建立源语料库与目标语料库的映射关系。而后,合成系统即可以合成具有目标说话人特色的声音。 链接一:语音合成技术 语音合成技术(Text-to-Speech,简称TTS)是一种将任意文本转换成语音输出的技术,在通信、游戏娱乐等领域中有着广阔的应用前景。近十年来,随着各种信号处理技术、模式识别技术的飞速发展,语音合成技术也取得了相当大的进步,其合成的语音清晰、自然,用户很容易即可听懂。目前的合成语音虽然少了许多“机器味”,但是依然比较单调无趣,一个合成系统通常只能以一种特定的风格进行朗读,这就导致合成语音在日常生活中难以广泛应用。目前TTS系统最大的不足就是它仅仅能够产生几个特定人的发音,而用户则期望它具有模拟发出自己或者某些特定人声音的能力。 链接二:个性化语音生成的总体框架 个性化语音生成研究的总体框架主要包括三组内容: 传统意义上的韵律转换和频谱转换、语音变换、个性化自适应研究。传统意义上的韵律转换和频谱转换的目的是对源说话人声音施加某种变换,保持源说话人的内容不变,并且使得转变后的声音具有目标说话人的特征。其中频谱转换保证转换后的声音具有目标说话人的音色特征,而韵律转换保证转换后的声音具有目标说话人的韵律特征。语音变换则是对源声音施加一种代表某种趋向的变换,使得转换后的声音具有某种特殊效果,如性别的改变、人声到机器声的改变等。个性化自适应研究是语音转换技术同语音合成技术的一个结合点。同时,在个性化自适应研究中,通过合成系统能够得到发音、韵律结构等文本信息,而在转换中,往往只能得到有限的韵律特征和声学特征信息。由此可以看出,个性化自适应系统比传统意义的韵律转换和频谱转换系统可以利用更广泛的信息,所达到的转换效果也必然更加真实,具有更广泛的应用价值。 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。