请输入您要查询的百科知识:

 

词条 自动语音识别
释义

定义

自动语音识别(Automatic Speech Recognition 简称“ASR“)技术的目标是让计算机能够“听写”出不同人所说出的连续语音,也就是俗称的“语音听写机”,是实现“声音”到“文字”转换的技术。 自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。

语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。它是语音信号处理学科的一个分支。

语音识别所涉及的学科领域

信号处理、物理学(声学)、模式匹配、通信及信息理论、语言语音学、生理学、计算机科学(研究软硬件算法以便更有效地实现用语识别系统中的各种方法)、心理学等。

分类

自动语音识别通常有以下几种分类方法:

(1)按系统的用户情况分:特定人和非特定人识别系统;

(2)按系统词汇量分:小词汇量、中词汇量和大词汇量系统;

(3)按语音的输入方式分:孤立词、连接词、连续语音系统等;

(4)按输入语音的发音方式分:朗读式、口语(自然发音)式;

(5)按输入语音的方言背景情况分:普通话、方言背景普通话、方言语音识别系统;

(6)按输入语音的情感状态分;中性语音、情感语音识别系统。

应用说明

语音识别技术适用于家用电器和电子设备,如电视、计算机、汽车、音响、冷气等的声控遥控器,电话、手机或PDA上的声控人名拨号、数字录音机的声控语音检索标签、儿童玩具的声控等;也可用于个人、呼叫中心,以及电信级应用的信息查询与服务等领域。

(1)带语音信箱的接线员

“关键词检出器”技术是一种自动语音识别(ASR)技术。它应用于一些具有特定要求的场合,由于速度、高检出率或其他特定的要求,人们并不需要系统识别出整个句子,更不需要理解整个句子,而只关注那些包含特定词(称为“关键词”)的句子。比如,对一些特殊人名、地名和词语进行电话监听,又比如通过人名进行自动分机接驳服务,等等。

(2)口语学习系统

口语学习系统利用可视化的朗读评分等人机交互的方式,通过视觉、听觉等综合手段,反复提示和帮助用户接近标准发音。该系统广泛应用于多种电脑设备和网络环境:

n 可集成到语言学习软件和VCD中;

n 可与复读机/mp3配套使用,用户可直接对着麦克风朗读,也可把录音与标准模型对照,提供了更方便和全面的口语训练方案;

n 支持网络远程服务,系统可实时处理众多用户通过网络传来的语音,用户可随时上网选择自己所需的内容进行个性化的学习和训练;

适合教育机构、商业企业、政府部门方便、快捷、可靠、客观地考核各类人才的口语能力和会话水平,应用于优秀人才聘用、工作能力考察、设定入学和毕业标准、评估教学成效等领域。

(3)声控拨号器

声控拨号器(Voice Dialer)是基于Pocket PC的汉语声控拨号器。声控拨号器应用了与说话人无关(即非特定人)的语音识别技术,用户无需在线训练,也无需预先录制声控标签,就能通过语音方便、快捷拨号,好学易用。

声控拨号器具有如下特点:

非特定人,无需训练;

识别率高,识别速度快;

与联系人信息保持同步;

支持汉字/拼音形式的联系人姓名;

联系人姓名读音可定制;

可浏览拨号器的姓名列表;

模型小,参数可定制。

语音识别的基本原理

训练(Training):预先分析出语音特征参数,制作语音模板,并存放在语音参数库中。

识别(Recognition):待识语音经过与训练时相同的分析,得到语音参数。将它与库中的参考模板一一比较,并采用判决的方法找出最接近语音特征的模板,得出识别结果。

失真测度(Distortion Measures):在进行比较时要有个标准,这就是计量语音特征参数矢量之间的“失真测度”。

主要识别框架:基于模式匹配的动态时间规整法(DTW)和基于统计模型的隐马尔可夫模型法(HMM)。

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/3/26 12:10:56