词条 | Audio |
释义 | § 声音格式 Audio声音格式Audio文件是SunMicosystems公司推出的一种经过压缩的数字声音格式,即AU格式。是Internet中常用的声音文件格式。AU文件原先是UNIX操作系统下的数字声音文件。由于早期Internet上的Web服务器主要是基于UNIX的,所以.AU格式的文件在的Internet中是常用的声音文件格式,NetscapeNavigator浏览器中的LiveAudio也支持Audio格式的声音文件。 § 音频 Audio音频定义 1、Audio,指人说话的声音频率,通常指300Hz-3400Hz的频带。 2、指存储声音内容的文件。 3、在某些方面能指作为波滤的振动。 音频这个专业术语,人类能够听到的所有声音都称之为音频,它可能包括噪音、声音被录制下来以后,无论是说话声、歌声、乐器都可以通过数字音乐软件处理。把它制作成CD,这时候所有的声音没有改变,因为CD本来就是音频文件的一种类型。而音频只是储存在计算机里的声音。演讲和音乐,如果有计算机加上相应的音频卡,可以把所有的声音录制下来,声音的声学特性,音的高低都可以用计算机硬盘文件的方式储存下来。反过来,也可以把储存下来的音频文件通过一定的音频程序播放,还原以前录下的声音。 特点 要在计算机内播放或是处理音频文件,也就是要对声音文件进行数模转换,这个过程同样由采样和量化构成,人耳所能听到的声音,最低的频率是从20Hz起一直到最高频率20KHZ,20KHz以上人耳是听不到的,因此音频的最大带宽是20KHZ,故而采样速率需要介于40~50KHZ之间,而且对每个样本需要更多的量化比特数。音频数字化的标准是每个样本16位-96dB的信噪比,采用线性脉冲编码调制PCM,每一量化步长都具有相等的长度。在音频文件的制作中,正是采用这一标准。 CD格式 Audio在大多数播放软件的“打开文件类型”中,都可以看到*.cda格式,这就是CD音轨了。标准CD格式也就是44.1K的采样频率,速率88K/秒,16位量化位数,因为CD音轨可以说是近似无损的,因此它的声音基本上是忠于原声的,因此如果如果是一个音响发烧友的话,CD是首选。它会让你感受到天籁之音。CD光盘可以在CD唱机中播放,也能用电脑里的各种播放软件来重放。一个CD音频文件是一个*.cda文件,这只是一个索引信息,并不是真正的包含声音信息,所以不论CD音乐的长短,在电脑上看到的“*.cda文件”都是44字节长。注意:不能直接的复制CD格式的*.cda文件到硬盘上播放,需要使用象EAC这样的抓音轨软件把CD格式的文件转换成WAV,这个转换过程如果光盘驱动器质量过关而且EAC的参数设置得当的话,可以说是基本上无损抓音频。 WAV 是微软公司开发的一种声音文件格式,它符合PIFFResourceInterchangeFileFormat文件规范,用于保存WINDOWS平台的音频信息资源,被WINDOWS平台及其应用程序所支持。“*.WAV”格式支持MSADPCM、CCITTALAW等多种压缩算法,支持多种音频位数、采样频率和声道,标准格式的WAV文件和CD格式一样,44.1K的采样频率,速率88K/秒,16位量化位数,WAV格式的声音文件质量和CD相差无几,也是PC机上广为流行的声音文件格式。 这里顺便提一下由苹果公司开发的AIFF(AudioInterchangeFileFormat)格式和为UNIX系统开发的AU格式,它们都和和WAV非常相像,在大多数的音频编辑软件中也都支持它们这几种常见的音乐格式。 MP3 MP3格式诞生于八十年代的德国,所谓的MP3也就是指的是MPEG标准中的音频部分,也就是MPEG音频层。根据压缩质量和编码处理的不同分为3层,分别对应“*.mp1”/“*.mp2”/“*.mp3”这3种声音文件。需要提醒大家注意的地方是:MPEG音频文件的压缩是一种有损压缩,MPEG3音频编码具有10:1~12:1的高压缩率,同时基本保持低音频部分不失真,但是牺牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸,相同长度的音乐文件,用*.mp3格式来储存,一般只有*.wav文件的1/10,而音质要次于CD格式或WAV格式的声音文件。 MP3格式压缩音乐的采样频率有很多种,可以用64Kbps或更低的采样频率节省空间,也可以用320Kbps的标准达到极高的音质。用装有FraunhoferIISMpegLyaer3的MP3编码器(现在效果最好的编码器)MusicMatchJukebox6.0在128Kbps的频率下编码一首3分钟的歌曲,得到2.82MB的MP3文件。采用缺省的CBR(固定采样频率)技术可以以固定的频率采样一首歌曲,而VBR(可变采样频率)则可以在音乐“忙”的时候加大采样的频率获取更高的音质,不过产生的MP3文件可能在某些播放器上无法播放。把VBR的级别设定成为与前面的CBR文件的音质基本一样,生成的VBRMP3文件为2.9MB。 MIDI MIDI允许数字合成器和其他设备交换数据。MID文件格式由MIDI继承而来。MID文件并不是一段录制好的声音,而是记录声音的信息,然后在告诉声卡如何再现音乐的一组指令。这样一个MIDI文件每存1分钟的音乐只用大约5~10KB。今天,MID文件主要用于原始乐器作品,流行歌曲的业余表演,游戏音轨以及电子贺卡等。*.mid文件重放的效果完全依赖声卡的档次。*.mid格式的最大用处是在电脑作曲领域。*.mid文件可以用作曲软件写出,也可以通过声卡的MIDI口把外接音序器演奏的乐曲输入电脑里,制成*.mid文件。 WMA WMA音质要强于MP3格式,更远胜于RA格式,它和日本YAMAHA公司开发的VQF格式一样,是以减少数据流量但保持音质的方法来达到比MP3压缩率更高的目的,WMA的压缩率一般都可以达到1:18左右,WMA的另一个优点是内容提供商可以通过DRM(DigitalRightsManagement)方案如WindowsMediaRightsManager7加入防拷贝保护。这种内置了版权保护技术可以限制播放时间和播放次数甚至于播放的机器等等,这对被盗版搅得焦头乱额的音乐公司来说可是一个福音,另外WMA还支持音频流(Stream)技术,适合在网络上在线播放,作为微软抢占网络音乐的开路先锋可以说是技术领先、风头强劲,更方便的是不用象MP3那样需要安装额外的播放器,而Windows操作系统和WindowsMediaPlayer的无缝捆绑让你只要安装了windows操作系统就可以直接播放WMA音乐,新版本的WindowsMediaPlayer7.0更是增加了直接把CD光盘转换为WMA声音格式的功能,在新出品的操作系统WindowsXP中,WMA是默认的编码格式。WMA这种格式在录制时可以对音质进行调节。同一格式,音质好的可与CD媲美,压缩率较高的可用于网络广播。 RealAudio RealAudio主要适用于在网络上的在线音乐欣赏,现在大多数的用户仍然在使用56Kbps或更低速率的Modem,所以典型的回放并非最好的音质。有的下载站点会提示你根据你的Modem速率选择最佳的Real文件。现在real的的文件格式主要有这么几种:有RA(RealAudio)、RM(RealMedia,RealAudioG2)、RMX(RealAudioSecured),还有更多。这些格式的特点是可以随网络带宽的不同而改变声音的质量,在保证大多数人听到流畅声音的前提下,令带宽较富裕的听众获得较好的音质。 近来随着网络带宽的普遍改善,Real公司正推出用于网络广播的、达到CD音质的格式。如果RealPlayer软件不能处理这种格式,它就会提醒你下载一个免费的升级包。 VQF 雅马哈公司另一种格式是*.vqf,它的核心是减少数据流量但保持音质的方法来达到更高的压缩比,*.vqf可以用雅马哈的播放器播放。同时雅马哈也提供从*.wav文件转换到*.vqf文件的软件。 OGG ogg格式完全开源,完全免费,和mp3不相上下的格式。 处理 一、音频媒体的数字化处理 随着计算机技术的发展,特别是海量存储设备和大容量内存在PC机上的实现,对音频媒体进行数字化处理便成为可能。数字化处理的核心是对音频信息的采样,通过对采集到的样本进行加工,达成各种效果,这是音频媒体数字化处理的基本含义。 二、音频媒体的基本处理 基本的音频数字化处理包括以下几种: 不同采样率、频率、通道数之间的变换和转换。其中变换只是简单地将其视为另一种格式,而转换通过重采样来进行,其中还可以根据需要采用插值算法以补偿失真。 针对音频数据本身进行的各种变换,如淡入、淡出、音量调节等。 通过数字滤波算法进行的变换,如高通、低通滤波器。 三、音频媒体的三维化处理 长期以来,计算机的研究者们一直低估了声音对人类在信息处理中的作用。当虚拟技术不断发展之时,人们就不再满足单调平面的声音,而更催向于具有空间感的三维声音效果。听觉通道可以与视觉通道同时工作,所以声音的三维化处理不仅可以表达出声音的空间信息,而且与视觉信息的多通道的结合可以创造出极为逼真的虚拟空间,这在未来的多媒体系统中是极为重要的。这也是在媒体处理方面的重要措施。 人类感知声源的位置的最基本的理论是双工理论,这种理论基于两种因素:两耳间声音的到达时间差和两耳间声音的强度差。时间差是由于距离的原因造成,当声音从正面传来,距离相等,所以没有时间差,但若偏右三度则到达右耳的时间就要比左耳约少三十微秒,而正是这三十微秒,使得辨别出了声源的位置。强度差是由于信号的衰减造成,信号的衰减是因为距离而自然产生的,或是因为人的头部遮挡,使声音衰减,产生了强度的差别,使得靠近声源一侧的耳朵听到的声音强度要大于另一耳。 基于双工理论,同样地,只要把一个普通的双声道音频在两个声道之间进行相互混合,便可以使普通双声道声音听起来具有三维音场的效果。这涉及到以下有关音场的两个概念:音场的宽度和深度。 音场的宽度利用时间差的原理完成,由于现在是对普通立体声音频进行扩展,所以音源的位置始终在音场的中间不变,这样就简化了我们的工作。要处理的就只有把两个声道的声音进行适当的延时和强度减弱后相互混合。由于这样的扩展是有局限性的,即延时不能太长,否则就会变为回音。 音场的深度利用强度差的原理完成,具体的表现形式是回声,音场越深,则回音的延时就越长.所以在回音的设置中应至少提供三个参数:回音的衰减率、回音的深度和回音之间的延时。同时,还应该提供用于设置另一通道混进来的声音深度的多少的选项。 § 听觉 AudioAudio是听觉的单词。听觉声波作用于听觉器官,使其感受细胞兴奋并引起听神经的冲动发放传入信息,经各级听觉中枢分析后引起的感觉。 听觉形成过程 外界声波通过介质传到外耳道,再传到鼓膜。鼓膜振动,通过听小骨传到内耳,刺激耳蜗内的毛细胞而产生神经冲动。神经冲动沿着听神经传到大脑皮层的听觉中枢,形成听觉。 声源--耳廓(收集声波)--外耳道(使声波通过)--鼓膜(将声波转换成振动)--耳蜗(将振动转换成神经冲动)--听神经(传递冲动)--大脑听觉中枢(形成听觉) 声波经外耳道传到鼓膜,引起鼓膜振动,再经过听骨链的传递而作用于前庭窗,引起前庭界外淋巴的振动,继而振动窝管中的内淋巴,因而震动了基底膜和螺旋器。基底膜的振动以行波方式由基底膜底部向其顶部传播,使该处螺旋器的毛细胞与盖膜之间的相对位置发生变化,从而使毛细胞受刺激而产生微音器电位。后者激发而窝神经产生动作电位,并经听神经传入大脑皮层颞叶听觉中枢,产生听觉。 声波经外耳道到达鼓膜,引起鼓膜的振动。鼓膜振动又通过听小骨而传达到前庭窗(卵圆窗),使前庭窗膜内移,引起前庭阶中外淋巴振动,从而蜗管中的内淋巴、基底膜、螺旋器等也发生相反的振动。封闭的蜗窗膜也随着上述振动而振动,其方向与前庭膜方向相反,起着缓冲压力的作用。基底膜的振动使螺旋器与盖膜相连的毛细胞发生弯曲变形,产生与声波相应频率的电位变化(称为微音器效应),进而引起听神经产生冲动,经听觉传导道传到中枢引起听觉。听觉传导道的第一级神经元位于耳蜗的螺旋神经节,其树突分布于耳蜗的毛细胞上,其轴突组成耳蜗神经,入桥脑止于延髓和脑桥 交界处的耳蜗核,更换神经元(第二级神经元)后,发出纤维横行到对侧组成斜方体,向上行经中脑下丘交换神经元(第三级神经元)后上行止于丘脑后部的内侧膝状体,换神经元(第四级神经元)后发出纤维经内囊到达大脑皮层颞叶听觉中枢。当冲动传至听觉中枢则产生听觉。另外,耳蜗核发出的一部分纤维经中脑下丘,下行终止于脑干与脊髓的运动神经元,是听觉反射的反射弧。 此外,声音传导除通过声波振动经外耳、中耳的气传导外,尚可通过颅骨的振动,引起颞骨骨质中的耳蜗内淋巴发生振动,引起听觉,称为骨传导。骨传导极不敏感,正常人对声音的感受主要靠气传导。 外耳和中耳担负传导声波的作用,这些部位发生病变引起的听力减退,称为传导性耳聋,如慢性中耳炎所引起的听力减退。内耳及听神经部位发生病变所引起的听力减退。称为神经性耳聋。某些药物如链霉素可损伤听神经而引起耳鸣、耳聋,故使用这些药物时要慎重。 § 相关词条 AVI WMA ASF 视觉 OGG VQF 触觉 味觉 § 参考资料 [1] 医药在线 http://www.cnm21.com/ [2] 世纪音频 http://www.wavecn.com/ |
随便看 |
百科全书收录594082条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。