请输入您要查询的百科知识:

 

词条 多媒体分类分检索
释义

.在基于内容的图像(视频)检索中,颜色,纹理,形状和运动等视觉特征被提取出来表征图像(视频)内容所蕴涵的语义,从而实现图像(视频)数据的查询与管理.即称为多媒体分类分检索

简介

随着计算机应用技术的发展与互联网速度的提高,用户可以访问到的文本,音频和视频等多媒体信息不断增加.这样,计算机用户在处理信息时所面临的主要问题已经从早期的信息匮乏转变为从海量信息中快速合理检索出需要信息.

于是,从90年代初开始,基于内容的图像(视频)检索成为多媒体领域研究的热点之一.在基于内容的图像(视频)检索中,颜色,纹理,形状和运动等视觉特征被提取出来表征图像(视频)内容所蕴涵的语义,从而实现图像(视频)数据的查询与管理.

主要思想

由于音频也蕴含了大量的语义信息,近年来,基于内容的音频检索也受到越来越多的关注,其主要思想是通过提取音频流中的时域(频域)特征来描述音频内容.由于多媒体本质是由文本,视频和音频等多种媒质交互融合而成的,它们之间存在或多或少的语义关联,一种媒质和另外一种媒质可以表示同一语义,媒质之间可以相互索引.

但是,无论是基于内容的图像(视频)检索或是基于内容的音频检索,目前还是基于视觉或听觉感知特征相似度比较的检索,而我们对多媒体内容的描述是基于其所蕴涵的语义信息的.因此,将多媒体数据流分类成预先定义的语义模型是多媒体检索面临的挑战.语义概念模型可以分为三类:一是高级语义,这种语义是不同时间和空间几个多媒体事件高度抽象概念化的结果,它需要探讨人脑的思维机制;二是中级语义,这种语义是高级语义中所涉及的人或事件的分别描述,不涉及几个事件的交叉;最后是低级语义,它是利用视觉或听觉信息对多媒体数据进行初步分类,如"音乐","语音"或"海滩"等.对多媒体数据进行语义标注实现了多媒体从无结构到结构化的过程,可以有效组织多媒体数据流,方便检索.

基本特征

另外,随着网络技术的普及,对多媒体数据(特别是音频数据)进行实时分析也成为了需要.传统多媒体检索中提取的特征基本上是基于非压缩域的,随着多媒体应用技术的发展,MPEG凭借其易于传输存储的优点而成为多媒体数据压缩通用标准.用非压缩域方法来对MPEG数据流进行语义标注时,必须先解码,才能提取特征和对特征分析,造成运算量无谓增大,不能保证实时效果.同时,MPEG对音频部分的编码结合了听觉心理学,编码时就考虑了人的听觉感知特性,所以直接在MPEG压缩域上提取特征,可以使这些感知特性不会丢失,保证对音频信息的正确理解.

在音频数据流中,说话人是非常重要的语义信息,如不同的节目主持人会报导不同内容的新闻节目(体育,天气预报和时事等).通过对讲话人语音的分析,自动确认出话者身份,既可以用话者身份对音频进行中级语义标注,也可以对其相应的视频信息流进行分类,实现不同媒质之间的索引.

MPEG

概念

MPEG即为活动图像专家组(Moving Picture Expert Group),成立于1988年,这个组织的任务是建立活动图像及相应音频的编码标准.实际上MPEG是一个标准系列,包括MPEG-1,MPEG-2,MPEG-4,MPEG-7和MPEG-21等.

MPEG的数据流主要包含3种成分:图像流,伴音流和系统流.图像流仅仅包含画面信息,伴音流包含声音信息,系统流实现图像和伴音的同步.所有播放MPEG图像和伴音数据所需的时钟同步信息都包含在系统流中.

MPEG是一种有损的,非平衡编码.有损意味着为达到低比特率,采用了基于听觉和视觉心理的压缩模式,一些人眼和人耳最不敏感的图像和伴音信息将丢失;非平衡编码意味着其压缩编码过程比解码过程慢的多.

原理

在MPEG对任何类型音频编码时,原始音频流首先通过32个过滤器组转换成对应频谱分量,同时运用心理生理学模型来控制每一子带的位分配,通过对各个子带编码来实现原始信号编码.由于MPEG编码是非平衡编码,因此相对于复杂而又耗时的编码过程,其解码过程是十分简单的:各子带的序列按照位分配段的信息被重建,然后各子带的信号通过一个合成过滤器组生成32个连续的16位PCM格式的声音信号.本文中所要提取的基于压缩域的音频特征就是在32个子带的信号合成之前计算的.

在MPEG编码过程中,音频信号的频谱通过一组等距带通滤波器被映射成到32个子带上.在频谱映射过程中,使用多相过滤器结构.过滤器组包含512个系数,在频域上是等距的,对于采样频率为22050Hz的原始信号来说,按照奈魁斯特采样定律,信号实际最大频率为11025HZ,因此每一个子带的带宽为11025/32=345Hz.

音频特征

所谓音频特征就是用来表征原始音频信息的数据.根据特征空间的不同,音频特征可以分为时域,频域和时频三类:时域特征包括短时能量,过零率和线性预测系数等;频域特征包括线性预测(LPC)倒谱系数和MFCC等;时频特征包括短时傅立叶变换和小波系数等.近年来,为了更真实反映原始音频数据流首先被耳蜗处理,然后才在大脑处形成"音频场景"的事实,仿照人的听觉感知模型,一些特征被提取出来.于是,根据是否使用感知模型,音频特征可以分为物理和感知两类.物理特征包括短时能量,过零率,基本频率等,它来源于音频信号本身;感知特征包括音调和音高等,它依赖于人的听觉模型.要指出的是,有些时频特征也属于感知特征,如小波变换每层分解相当于一个恒Q滤波器,符合人耳听觉感知特性.

MPEG音频压缩利用了"心理声学模型(psychoacoustics model)",在MPEG压缩领域上直接提取特征,可以保留这些感知特性,更好像人的听觉感知系统一样,实现对音频语义内容的理解.

相关实验

实验中首先把MPEG数据流分解成视频和音频两部分.其中音频流数据是MPEG-2 Layer III,采样频率为22050Hz.按照传统语音处理中对信号处理分成短时"帧"的要求,音频数据被分割成大约为20毫秒的帧序列(每一帧有576个采样值).

对于每一帧,首先求出每一个子带矢量值的均方根

,其中是32维的子带矢量,也是一个32维的矢量.表征了这一帧的特性,由此可以得到以下的具体特征:(1)质心(Centroid):,指一个矢量的平衡点,质心反映了在压缩域上音频信号的基本频率带;(2)衰减截止频率(Rolloff):,指音频信号能量衰减3分贝时的截止频率.由于人耳对音频信号强弱变化相当敏感,衰减截止频率其实就是自适应的听觉阈值,它体现了心理声学中的听觉掩饰特性;(3)频谱流量(Spectral Flux):指相邻两帧的矢量正规化后以2为模的差分,频谱流量体现了音频信号的动态特征;(4)均方根():,用来衡量这一帧音频信号强度.音频场景的切换通常伴随着音量变化,因此在分割中是十分重要的一个指标.

由于音频信号的非平稳特性,为了更好表征音频的时序变化,上述四个特征的统计信息也被提取出来作为音频特征:实验中,使用40帧为一个窗口(大约1秒),对每一帧,计算其前一个窗口中所有帧的质心,衰减截止频率和频谱流量的均值和方差,并且计算均方根低于某一阈值的比例,得到七个具有统计意义的特征.

这样,对于每一帧,总共提取了11个特征.每个音频数据流的前40帧统计特征值是

这个音频流所有对应统计特征的平均值.

这11个特征反映了音频的静态和动态特性,符合心理声学模型,构成了压缩域上音频

信号的描述算子,被用来进行音频的分割,粗分和识别.

研究表明,虽然音频信号特征随时间变化剧烈,但是对于同一音频类而言,其特征之间的距离变化大致有一定规律的,通过选取好的窗口距离可以体现出这种规律性来.利用前面提取的11个特征,实验中实现了如下的音频分割算法:(1)读入MPEG音频流,对每一帧求出特征矢量,是11维,表示时间(帧数);(2)求出前后相邻特征向量和之间的对数化欧氏距离,其中表示第帧中的第个特征;(3)对于得到的序列,求出时刻前后窗口长度为的均值的差;这个过程叫窗口化(4)如果在某一时刻值大于阈值,则判定在该时刻特征矢量发生了跃变,因此发生了音频信号的转换,于是音频流从此处分割.

对于分割得到的各个音频片段(clip),需要识别出每个音频片段的类别(也就是它们的低级语义).在识别出来低级语义的基础上,才能逐步形成中级和高级语义.为了对分割出来的音频片段标注低级语义,我们先把这些音频片段按分层原则粗分成三类:音乐,语音和其它.然后对其中的语音片段专门处理,去识别语音片段中的话者身份信息.

语音分割

对于分割并粗分得到的语音片段,需要进一步细分出话者身份信息.话者识别可以分为自动话者确认(Automatic Speaker Verification,简称ASV)和自动话者辨认(Automatic Speaker Identification,简称ASI).ASV要求系统作出"是"或"不是"所记录集合中的话者,属于二元判决;而ASI是辨认待识别的语音片段属于哪一位话者的发音,属于多元判决.本文中的说话识别指ASI.规定了发音内容的话者识别称为与文本有关(Text-Dependent)的话者识别;反之不限定发音内容的话者识别称为与文本无关(Text-Independent)的话者识别,它更具有挑战性.

特征参数

语音是人的自然属性之一,因此从语音信号中提取能反映人个性的特征是识别的关键,通常采用线性预测(LPC)倒谱系数或MFCC作为话者识别的特征参数.

对于MPEG编码的音频数据,针对语音固有的特点,对前文所提取的质心,衰减截止频率,频谱流量和均方根等压缩域特征做了改进,得到的数据作为话者识别特征.

由于人的语音信号频率集中在200 kHz到 4.5 kHz 之间,对于采样频率为22050Hz的音频信号,人的话语主要集中在32个子带中前8个子带上.因此,只要考虑前8个子带的特征向量,就可以取得了较好的识别效果,并节省计算量.提取的特征如下:(1)子带质心:;(2)子带衰减截止频率:;(3)子带频谱流量;(4)子带均方根:

话音识别模型

概述

话音识别的模型主要包括矢量量化(VQ),隐马尔可夫链(HMM)和神经网络(NN).利用矢量量化技术进行话者识别涉及大量的计算,而且对计算的精度较敏感,给识别带来了较大的困难;神经网络在语音识别上表现出了较大的应用前景,它具有自学习,自完善,自适应的特点,但基于神经网络的说话人识别技术还有待进一步的完善.由于隐马尔可夫统计模型被广泛应用于语音识别领域,本文采用它实现了与文本无关的话者识别.

隐马尔可夫模型

起源于60年代末的隐马尔可夫模型,由于其坚实的数学基础,被广泛用于信号处理领域.通常用五元组(5-Tuple)来表示一个隐马尔可夫链随机模型.

对于语音等表现为时间连续的随机信号,每个状态对应的观测事件的概率估计,采用D维E元混合高斯密度分布的连续隐马尔可夫链来表示.其中,D维指从每个随机信号中所提取的特征数目,E表示每个状态所对应的高斯密度分布数目(如果每个状态所对应的混合高斯分布数目不同,则E代表所有状态中最大的混合高斯数目).从本质上讲,E元高斯密度分布也就是把D维特征向量序列进行聚类.

对每个说话人分别收集训练样本,从每个样本每一帧中分别提取子带质心,子带衰减截止频率,子带频谱流量和子带均方根特征组成特征向量,通过Baum-Welch最大预期算法(EM)训练生成表征某个话者的隐马尔可夫模型,表示要识别的话者数目.使用前向(Forward)算法计算分割粗分出来的语音片段对每一个话者模型的出现概率.

神经网络模型

由贝叶斯理论可知: ,其中表示为第个话者模型的概率;表示对于训练好的话者模型,属于它的概率,即对每个,出现概率; 指的是每一话者模型出现的先验概率.在这里,认为每一个话者模型出现概率相等;又因为对每个而言,值一定.所以,于是通过计算出的值,考察的大小关系,选出使最大的,则也最大,也就最可能是这种话者模型.

通过前向算法求得的最大值所对应的话者模型,就是应该属于的话者模型.然后把这个语音音频和其对应的视频数据标注上这个话者身份信息,达到检索目的.同时设置一个最小阈值,如果对任意,都小于该阈值,则认为该不属于任何一种已知的话者模型,将它标记为陌生人.

总结

现实中,语音信号中往往蕴涵多个人的声音,如何在混杂的信号中仍然识别出话者身份是面临的一个挑战;每个话者所对应的视频流信息表述了不同的语义(如不同的时事事件),如何对这些语义场景分割和关联是面临的第二个挑战;融合利用视频和音频压缩域特征,对MPEG多媒体数据流实现高级语义场景分割与理解,实现压缩域多媒体信息流的结构化,方便检索,是要达到的最终目的.

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/2/5 3:15:18