马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?快速注册
x
一.有损(lossy)/无损(lossless)/未压缩(uncompressed)音频格式' B x' |2 J2 Y. q( Z- r
未压缩音频是一种没经过任何压缩的简单音频。未压缩音频通常用于影音文件的的PCM或WAV音轨。
8 Q( H" w; r. o: q% S* K' v6 T无损压缩音频是对未压缩音频进行没有任何信息/质量损失的压缩机制。无损压缩音频一般不使用于影音世界,但是存在的格式有无损WMA或Matroska里的FLAC。/ z: G4 Q5 L D8 O) a+ E; x2 |
有损压缩音频尝试尽可能多得从原文件删除没有多大影响的数据,有目的地制成比原文件小多的但音质却基本一样。有损压缩音频普遍流行于影音文件,包括AC3, DTS, AAC, MPEG-1/2/3, Vorbis, 和Real Audio.
. I) A+ g# E0 a, E# L8 Q8 k我们也来讨论下无损/有损压缩过程。只要你转换成一种有损压缩音频格式(例如wav 转MP3),质量上有损失,那么它就是有损压缩。从有损压缩音频格式转换成另一有损压缩音频格式(例如Mp3转AAC)更槽糕,因为它不仅会引入原文件存在的损失,而且第2次编码也会有损失。! L( r. W& e9 @$ _0 f4 T
8 {# ?5 p6 Q+ d& b, l- d) @
二、语音(Voice)编码和音频(Audio)编码
6 Q c3 G, b8 q4 T4 w 语音编码主要是针对语音通信系统中的编码方案,应用在有线或无线通信中;音频编码是针对音乐的编码方案,主要用来更方便地实现对音乐文件进行网络传输和存储。两者的差别一方面是频带不同,另一方面是压缩要求不一样,音乐要求具有高保真度和立体感等要求。音频编码最常见的是MPEG的音频编码。
$ K1 p8 [. r+ @3 P: u& [语音的编码技术通常分为三类:波形编码、参量编码和混合编码。其中,波形编码和参量编码是两种基本类型。
' f5 Q2 P1 Z% c1 _& ? ( T; |2 c. M, P, E* r: L
波形编码 是将时间域信号直接变换为数字代码,力图使重建语音波形保持原语音信号的波形形状。波形编码的基本原理是在时间轴上对模拟语音按一定的速率抽样,然后将幅度样本分层量化,并用代码表示。解码是其反过程,将收到的数字序列经过解码和滤波恢复成模拟信号。它具有适应能力强、语音质量好等优点,但所用的编码速率高,在对信号带宽要求不太严格的通信中得到应用,而对频率资源相对紧张的移动通信来说,这种编码方式显然不合适。: l9 B, h1 c! L
脉冲编码调制(PCM)和增量调制(△M),以及它们的各种改进型自适应增量调制(ADM),自适应差分编码(ADPCM)等,都属于波形编码技术。它们分别在64以及16Kbit/s的速率上,能给出高的编码质量,当速率进一步下降时,其性能会下降较快。
! `" A1 [3 U. ?' I3 r/ \ ' w* \: a9 P @3 s- }. e
参量编码 又称为声源编码,是将信源信号在频率域或其它正交变换域提取特征参量,并将其变换成数字代码进行传输。具体说,参量编码是通过对语音信号特征参数的提取和编码,力图使重建语音信号具有尽可能高的可靠性,即保持原语音的语意,但重建信号的波形同原语音信号的波形可能会有相当大的差别。这种编码技术可实现低速率语音编码,比特率可压缩到2Kbit/s-4.8Kbit/s ,甚至更低,但语音质量只能达到中等,特别是自然度较低,连熟人都不一定能听出讲话人是谁。线性预测编码(LPC )及其它各种改进型都属于参量编码。5 J( R* T+ \7 }: H3 h
. f6 T e* ]! h. u
混合编码 将波形编码和参量编码组合起来,克服了原有波形编码和参量编码的弱点,结合各自的长处,力图保持波形编码的高质量和参量编码的低速率,在4-16Kbit/s速率上能够得到高质量的合成语音。多脉冲激励线性预测编码(MPLPC ),规划脉冲激励线性预测编码(KPELPC),码本激励线性预测编码(CELP)等都是属于混合编码技术。很显然,混合编码是适合于数字移动通信的语音编码技术。- y7 y" l) v% q: ^
9 P% Q. s2 `9 n三、无线通信中常见语音编码
2 e' X/ P4 S& ? PHS为32kbit/s的ADPCM编码,GSM为13kbit/s的规则脉冲激励长期预测(RPE-LTP)编码,WCDMA使用的是自适应多速率编码(AMR),cdma2000使用的是可变速率编码(IS-773,IS-127)。4 D# k9 k8 f+ O6 j. c$ N* l
! @! g v9 O: C0 B8 W; e+ R
1、AMR编码% D+ u( a3 v& h1 {7 l7 E+ \6 ?3 |
(介绍它的原因是因为手机中有使用AMR铃声)。在3G多媒体通信的发展过程中,音视频编码有了很大的发展。1999年初,3GPP采纳了由爱立信、诺基亚、西门子提出的自适应多速率(AMR)标准作为第三代移动通信中语音编解码器的标准。AMR声码器采用代数码本激励线性预测(ACELP:Algebraic Code Excited Linear Prediction)编码方式。AMR标准针对不同的应用,分别提出了AMR-NB,AMR-WB和AMR-WB+三种不同的协议。AMR-NB应用于窄带,而AMR-WB和AMR-WB+则应用于宽带通信中。8 i- `5 o# K5 ?; P! o( }( G& r
对于手机铃声,AMR-NB对应的铃声文件扩展名是.amr,AMR-WB对应铃声文件扩展名是.awb。它们不是音乐,而是录音得到的原声。
Q4 ?( y9 x& q! D9 c) S' h6 v; ^( Y7 E, W
2、ADPCM编码
5 g) O, i: ^7 b r 自适应差分脉码调制(ADPCM)是在差分脉码调制(DPCM)的基础上发展起来的。DPCM根据信号的过去样值预测下一个样值,并将预测误差加以量化、编码,而后进行传输,由于预测误差的幅度变化范围小于原信号的幅度变化范围,因此在相同量化噪声条件下,DPCM的量化比特数小于PCM,从而达到语音压缩编码的目的。ADPCM与DPCM比较,两者主要区别在于ADPCM中的量化器和预测器采用了自适应控制。同时,在译码器中多了一个同步编码调整,其作用是为了在同步级连时不产生误差积累。" o: n( {: O% _7 H
20世纪80年代以来,32kb/s的ADPCM技术已日趋成熟,并接近PCM的质量,但却节省一半的信道容量,因而受到重视。1984年CCITT提出G721建议,采用动态锁定量化器,这是一种具有自适应速度控制32kb/s的自适应量化器,并将它作为国际标准化的语音编码方法。1986年又对G721建议进行了修正,称G726建议。( L! G E! X' I! W4 R; \: s
ADPCM不适合作音乐的编码,常用于录音。雅马哈的MMF铃声用到MIDI+PCM/ADPCM技术,其中PCM和ADPCM就是模拟音效,包括人声。3 Z" W: m) L$ A
+ L3 H& g& U x! C/ `
四、各种主流音频编码(或格式)的介绍
: u) k1 c3 S! b0 K5 _# y/ |1 |5 m2 I$ D+ U
1、PCM编码5 b7 m! X$ @0 Z7 J7 J$ j1 G
PCM(Pulse Code Modulation),即脉冲编码调制,指模拟音频信号只经过采样、模数转换直接形成的二进制序列,未经过任何编码和压缩处理。PCM编码的最大的优点就是音质好,最大的缺点就是体积大。在计算机应用中,能够达到最高保真水平的就是PCM编码,在 CD、DVD以及我们常见的WAV文件中均有应用。7 O _5 t, R$ U( O9 ^5 d$ K
; f& a4 [: S% G7 M4 A5 O1 R* ?
2、WAVE格式(铃声)& w H: l7 S& y% S6 b1 o& W
这是一种古老的音频文件格式,由微软开发。WAV对音频流的编码没有硬性规定,除了PCM之外,还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。WAV可以使用多种音频编码来压缩其音频流,不过我们常见的都是音频流被PCM编码处理的WAV,但这不表示WAV只能使用PCM编码,MP3编码同样也可以运用在WAV中,只要安装好了相应的Decode,就可以欣赏这些WAV了。
/ |2 p n3 S: B3 Z: x在Windows平台下,基于PCM编码的WAV是被支持得最好的音频格式,所有音频软件都能完美支持,由于本身可以达到较高的音质的要求,因此,WAV也是音乐编辑创作的首选格式,适合保存音乐素材。因此,基于PCM编码的WAV被作为了一种中介的格式,常常使用在其他编码的相互转换之中,例如MP3转换成WMA。
: ~0 h, ~$ T8 ?1 \6 z S# B( L h7 G2 G
3、 MP3编码(铃声)0 V1 \( J- {' d- A3 r3 p/ J: N; \
MP3,众所周知也就是MPEG-1 Layer 3,是一个意图达到高的压缩率同时又能保持相当不错的音质的有损音频格式。Layer 3不是MPEG Layer 1或Layer 2的新版,只是与它们不同的复杂的编码方案。现在有许多可用的MP3编码器,其中最高品质的莫过于Lame,同时它也是开源免费的。
/ E. I$ B. W3 v! [) o. t# gMP3技术上支持多声道(多于2个声道),但从未实施过或者今后也不会了。事实上,你可以编码源文件为pro logic (II)的多声道文件变换成立体声MP3。
9 ], K: m4 z" y( r, CMP3有不同的采样率和比特率(注意比特率并不是量化精度,而是代表压缩比),代表不同的音质。网络上流行的MP3是44.1KHz采样率,128Kbps比特率的。下表中列出了不同品质的MP3,其中列表示SR(采样频率),范围8KHz~48KHz,行表示BR(比特率),范围 8Kbps~320Kbps。) n& R- E; W0 m y! D
& n1 g' Q' @$ C# w9 S% f7 H. j
4、OGG编码(铃声), w7 l2 T7 V& w& s! L
网络上出现了一种叫Ogg Vorbis的音频编码,号称MP3杀手!Ogg Vorbis究竟什么来头呢?OGG是一个庞大的多媒体开发计划的项目名称,将涉及视频音频等方面的编码开发。整个OGG项目计划的目的就是向任何人提供完全免费多媒体编码方案。OGG的信念就是:OPEN!FREE!Vorbis这个词汇是特里·普拉特柴特的幻想小说《Small Gods》中的一个"花花公子"人物名。这个词汇成为了OGG项目中音频编码的正式命名。目前Vorbis已经开发成功,并且开发出了编码器。
2 g6 o2 l2 e# c, S! g Ogg Vorbis是高质量的音频编码方案,官方数据显示:Ogg Vorbis可以在相对较低的数据速率下实现比MP3更好的音质。Ogg Vorbis这种编码也远比90年代开发成功的MP3先进,她可以支持多声道,这意味着什么?这意味着Ogg Vorbis在SACD、DTSCD、DVD AUDIO抓轨软件的支持下,可以对所有的声道进行编码,而不是MP3只能编码2个声道。多声道音乐的兴起,给音乐欣赏带来了革命性的变化,尤其在欣赏交响时,会带来更多临场感。这场革命性的变化是MP3无法适应的。& ?- b) i2 r: A9 A5 v& q
和MP3一样,Ogg Vorbis是一种灵活开放的音频编码,能够在编码方案已经固定下来后还能对音质进行明显的调节和新算法的改良。因此,它的声音质量将会越来越好,和MP3相似,Ogg Vorbis更像一个音频编码框架,可以不断导入新技术逐步完善。和MP3一样,OGG也支持VBR(可变比特率)。
5 \* n6 w- u9 Y3 {1 C4 k
( h! g( u% m; g, R9 a( `5、MPC 编码3 l) X. D; `& m1 N2 s i
MPC (Muse Pack)高比特率高保真音乐格式。是另外一个令人刮目相看的实力派选手,它的普及过程非常低调,也没有什么复杂的背景故事,她的出现目的就只有一个,更小的体积更好的音质!MPC以前被称作MP+,很显然,可以看出她针对的竞争对手是谁。但是,只要用过这种编码的人都会有个深刻的印象,就是她出众的音质。
5 ?7 ?6 X4 [) v3 j8 I M% w, P( b; Y( t
|
|
|
|
|