也说说音频压缩格式(无损技术向)

今天在某日本的音像购物网站中闲狂时,发现了关于 DVD-Audio 的一些说明描述(日文,不转载与翻译了- -!),其中发现了 16bit 与 24bit 的一些区别描述(之前用 Google 找就是没找到这方面的资料……)。然后才通过 Google 找到了中文方面的一些资料(但不是纯为 16bit 与 24bit 的……),我先将这些技术信息复制过来:

第一,量化精度的好处

技术发展到了DVD-Audio,号称量化精度可以达到24位,而SACD更是“领先”一步,采用1Bit量化,并且指出对手DVD-Audio的PCM线性音频有其本身无法克服的缺点。那么我们来看看SACD有什么理由可以这样说。

音频系统中量化精度——即Bit的数目决定了声波振幅的范围(即动态范围,最大音量与最小音量的差距),如果这个位数越大,则可以表示的数值越大,描述波形更精确。每一个Bit的数据可以记录约等于6dB动态的信号。一般来说,16Bit可以提供最大96dB的动态范围(加高频颤动后只有92dB)。每增加一个Bit的量化精度,这个值就增加6dB,因此我们可以推断出20Bit可以达到120dB的动态范围,24Bit则可以提供高达144dB的动态范围。

那么,动态范围大了,会有什么好处呢?动态范围是系统所能发出的最小音量和最大音量的差别(也是最大不失真电平功率与噪音功率的比值)。这个数值越大,则系统可以承受很高的动态,比如某些《1812序曲》发烧录音唱片中的炮声。如果系统动态过小,高于动态范围的信号将被削波(高于0dB的溢出信号将被砍掉,会导致噼里啪啦的声音)。因此,DVD-Audio和SACD都号称可以完美还原整个交响乐队的庞大动态。

更高的量化精度还有一个好处,就是在低电平时失真小。假设一个只有-90dB的声音信号,并且系统最大音量是96dB(以最小音量为0dB)。那么在16Bit的情况下,系统将只用1Bit的数据来表示这个信号,失真将会很大。而如果在24Bit的条件下,最大音量不变,则-90dB的声音信号将在这里变成一个相当于16Bit下的一个-32dB的信号(最小音量减少48dB),系统将使用9Bit的数据来表示这个信号。失真很明显将会降低许多。因此,高量化精度带来的小失真,大动态的效果。听起来很棒!

但是,这是厂家大力宣传的重点,有这么一些人却对此持怀疑态度,笔者就是其中之一,我的观点有以下几点:

1.设备能力问题

厂商宣传的都是一些理论数据,那么实际如何呢?我们谈论音频系统自然是不能脱离设备的。有设备,那么设备就必然有噪音。所以噪音将在这里面起很大作用。假设系统的信噪比为90dB(需要阐释清楚的是,信噪比不等于动态范围。一个理想的n比特量化信号的信噪比可以被表示为 6.02n+1.76dB)。这意味着在96dB的动态下,系统会有6dB的噪音,同时也就意味着系统将有1Bit数据出现失真。则实际上系统的量化精度将变成15Bit。应该说,从技术的角度,一个严格的16Bit的系统,至少应该达到以下几点:不低于98dB的信噪比,不低于96dB的动态范围。

这是一些声卡的测试数据,如果以这种标准来衡量的话。没有一块声卡可以达到16Bit的标准。实际上,专业声卡能达到这种标准的也寥寥无几。这样一来,厂家当然不干(还让不让我们做生意了?)。好吧,我们从技术角度妥协一下,考虑到加上高频颤动的情况。动态可以放松要求,降到92dB;信噪比也降到92dB。发现没有?我们即使妥协到这种程度,过关的仍然没有几个。民用声卡中只有Audigy和Audigy2可以勉强称的上是16Bit的声卡(读者可能会晕倒——什么?你没有搞错?这两个可是号称24Bit的声卡!)至于那些音质颇有口碑的声卡们——MX200,黑金2,大力神和飞利浦,如果它们还是只有16Bit取样的话,则还是很无情地被16Bit的标准拒之于门外。那么,有没有办法吗?答案是有的,为了解决这种情况,如果我们可以用20Bit,则可以很轻松地克服这个缺点。这样的话,即使最后4Bit被噪音糊掉,我们仍然可以有16Bit。这也就是为什么像MAYA,黑金2这样的声卡的数模部分并不是16Bit取样的原因。

因此,标称16Bit并不等于实际上就是16Bit。那么,到了24Bit,情况会怎么样呢?同理,系统必须达到144dB的信噪比和动态范围才可以!但实际上,这是不可能的。如果维持最大音量不变的话,系统只好降低最小音量来达到144dB的动态。这样即使你的系统不接上电流,空气的震动以及地球自转带来的震动的噪音水平也会达到相当于10~20dB那么大!即使你提高Bit数,假设提高到28Bit,结果却是无用,因为空气的震动以及地球自转带来的震动的噪音音量是一定的且你无法增加最大音量——人将无法忍受(在16Bit时可能在0电平以下,不需要理会,但是随着0电平的降低却不能忽视了)。增加4Bit只会为它们增加24dB的噪音而已。另一方面,一旦你运行设备,设备本身带来的噪音水平也将很高——除非你使用绝对零度来冷却设备。这也就是为什么一些最顶级的24Bit设备的信噪比最高只能达到120dB的原因。这也是数模转换无法克服的缺点。还需要说明的是这只是音源的影响,如果加上音箱,嘿嘿,实践证明,一个信噪比96dB的声卡加上一个信噪比96dB的音箱,系统的总信噪比并不是96dB,而是大多在80多dB左右。损失也不“

由此我们看到,你的设备可以达到24Bit吗?答案是否定的,实际情况是:你的设备能够达到18Bit已经是谢天谢地了。(可惜的是,在这方面上,市场打败了技术,厂家都是以理论值说话,从来不提实际值。但是真相大家应该知道!)

2. 动态的神话

按厂家的标准,动态越大越好,那么我要问一句:有必要吗?我的观点是CD的96dB已经足够了,如果再增加,则会对耳朵有害。96dB已经足够大了,甚至喷气机的轰鸣都可以表现出来。而且一般人的听觉痛阀(人所能忍受的最大音量)在人耳最敏感的频段(大约4Khz)达到130dB左右,个别人达到140dB。可以看到,如果真的存在144dB的动态的话,对你的耳朵将会是毁灭性的打击!

这时候,厂家要问了,如果动态超过96dB怎么办?我认为可以做压限处理——将这个动态衰减到96dB。而且音质不会有变化。我之所以敢这样讲是因为心理声学中有很重要的一条原则——声音的相对论,即声音的音量大小是个相对的感觉。比如海顿的《No.94 惊愕交响曲》,实际上音量不算大,但是因为那是在很安静的情况下陡然增强了效果,所以显得很大。按照这个理论,一个瞬态的声音从0到96dB和一个从0到140dB的瞬态声音给人感觉到的效果是一样的。因为它们的突然性和刺激性太强,人的耳朵和神经系统已经根本无法分辨他们的强弱。所以普通人是无法说出,一个从瞬时动态为96dB的信号和一个瞬时动态为120dB的信号谁的动态更大。正因如此我觉得,CD标准的动态已经足够了,至于有人为什么感觉SACD和DVD-Audio的动态大,有三种可能:1.心理暗示作用。2.他们用作对比的CD的动态其实并不大,没有达到90dB以上。3.CD所作的动态扩展不够。

3. 失真问题

对于高精度所带来的失真小的因素,其实影响不大,为什么可以这样说呢?首先,心理声学告诉我们,人对小音量的感觉是很迟钝的——即对小音量失真的感觉很弱(DVD-Audio细节方面的优势在这里被埋没了)。而对大音量,人的感觉才敏锐起来。如果你硬要分辨出来(先不论你是不是有这个能力),则要费很大的精力,哪里还有精力听音乐?同时,等响度曲线又告诉我们:人只对中频有很高的分辨能力。对于其他频段则要差许多,尤其是低频。因此,并不是某些SACD、DVD-Audio厂商说的那样,CD标准在小电平信号的失真只是很小的瑕疵,影响太小了,接近于不值一提。

第二,过采样的优点

下面来看看采样频率的故事,根据奈奎斯特采样定理,大致的含义就是如果想要采样一个频率范围,需要至少2倍的采样率,比如我们的采样率为40Khz,则我们可以精确确定一个20Khz信号上的两个点。我们常说的44.1Khz采样率就是根据这个定的。但是,为什么是44.1而不是40?实际上是这样的,如果一个高于20Khz的信号进入数模转换器,假设是32Khz的信号,则系统无法对其精确采样,就会出现失真。由于它比奈奎斯特频率(奈奎斯特频率=采样频率/2)高12Khz,因此出现失真的位置在20Khz-12Khz=8Khz的地方。这种现象专业术语称之为混迭(aliasing),这是很不受大家欢迎的。那么,声学专家们只好想办法解决,方法就是对高于20Khz的信号进行逐渐衰减,直到为0电平。如果到22.05Khz的时候为0就很完美了,因此,选定了44.1Khz为采样频率。

但是这里面有一个问题,哈斯效应(又一个声学名词,晕!)指出人所能刚刚察觉声波达到有先后的范围在6微秒左右。但是44.1Khz采样的两个值的最小间隔是这个值的4倍!由于声音时间差影响到音源的定位能力,聪明人很快就可以断言44.1Khz下声音的定位能力和结像力是模糊的。如果把采样率乘以4,达到176或192Khz就完美了,这也是DVD-Audio标榜的先进之处。至于SACD 64倍于这个的采样率,笔者认为有些浪费且有哗众取宠之嫌,因为人已经感觉不到什么了,192Khz已经足够!但是即使是这样一种情况,也还不足以宣判CD的死刑,CD完全可以通过细微的延时和抖动运算(dithering)来弥补缺点,而且在技术上并没有太大的难度。新一代的HDCD和XRCD都在这方面进行了有益的尝试。

大多数DVD-Audio宣称具有CD不可比拟的频率响应带宽,譬如192Khz可以达到0~96Khz的频率响应。其实这也是一个二选一的问题,一旦你选择了更高的频率响应带宽,你必然要放弃优秀的定位能力。如果从保留两个优点的角度看,SACD的64倍过采样率还是很值得提倡的。

第三,声道数的学问

当立体声发明的时候,许多人认为它是完美的。但是不久以后,就有一些人尝试4声道了。实验的结果证明,多声道很有前途。现在已经进入了5.1甚至7.1声道的时代,有人拓展了这样一种理论,即:如果想要彻底欺骗人耳,营造完美的声场,需要18.1声道(众人晕倒)。人对于声音的角度也是有敏感性的,可见声道越多越好,我个人认为,DVD-Audio的真正杀手锏在于提供24/96和5.1声道的无损压缩格式(以前的多声道CD,比如DTS CD,则是靠有损压缩来达到5.1声道的标准,但是对于音质却是有损伤的)。这样的话,CD真的很难比拟DVD-Audio宏大的声场,这也应该是DVD-Audio的最大资本,这一点是任何人无法否认的。至于SACD,也是同样的优势。

最后,背后的故事

总体来说,DVD-Audio和SACD的主观听感我们应该可以推断出来了,那就是细节多,失真小。各厂家迫不及待地要普及SACD和DVD-Audio原因是多方面的。首先,CD技术容易实现以及平民化,对于厂家的利益不是个好消息,而且参与CD产品的厂家太多,竞争激烈。如果自己能够独占新技术,利润将会很高。其次,SACD和DVD-Audio可以挽救不景气的唱片业,增加新的卖点。最后,莫过于电脑的威胁了,尤其是以MP3为代表音频传输系统对于传统唱片业和HIFI业的冲击,这也是最重要的因素。

很多年以前(其实也没有几年,但对于日新月异的科技发展,实在已经可以看作历史了),当电脑进入音乐制作领域的时候,几乎一夜之间就让传统设备的老大俯首称臣,并迅速占领了这个领域。而对于音乐欣赏领域——唱片业和HIFI业,却没有什么动作。不过,电脑在这些方面却对这两个领域有着致命的威胁。唱片业已经尝到了苦头,电脑使用的是名叫互联网和MP3的技术。对于HIFI业,虽然表面上看电脑不能HIFI,但是以电脑的能力,打垮HIFI只是时间问题而已,因为HIFI业始终要将自己的命运绑定在数模转换器上,而数模转换有其不可改变的致命缺点——噪音和失真。但是电脑的数据总线可以做到无损传输音频数据。一句话:再好的数模转换器面对电脑通过总线传输的精确数据也是徒劳的抵抗。现在电脑上已经出现可以绕过ADC的软件,可以在录音时真正达到将近144dB的新噪比和动态范围!而目前最高级的ADC只可以达到120dB的动态和信噪比。由此可以看到电脑的强大力量!可以这样说,电脑征服HIFI领域的大军已经出发,恐怕到时候取代CD的不是SACD或DVD-Audio,而是一种无损音频压缩格式(目前无损压缩+rar压缩已经可以做到9:1的压缩比了,压缩比达到9:1的无损压缩指日可待了)

由于原文已经看不到图片了,我一时也没找到能和这篇文章相配套的图片,所以有关图片的内容都被清理。这篇文章的作者对于提高这些技术持怀疑态度,他有他的道理。但是,他似乎忘了或者是不知道一点:

在音视频的压缩(不管无损压缩或有损压缩)中,源(可以是文件,也可以通过设备)必须是大于你要压缩的质量的才行。

1、如果你做过音频的高级编辑处理或者视频的非线或者后期处理,你肯定会对于音频的源质量或视频的清晰度很关心。我们说,PCM 16bit, 44.1kHz 是 CD 音质,但是在音频处理软件中, PCM 16bit, 48kHz 则是可以被定义为工作室音质,双声道采样率达到 192kHz 仍然也是。而 PCM 24bit、32bit 则是音频处理中所需要的音质。这些音频的数据,对于计算机的几个处理单元来说,它有必要只管你人耳么?不必要。

2、在压缩文件的过程中,我们应该都知道这么一点:不管是无损还是有损压缩,压缩后的文件极小数的情况下会大于原文件。而在做压缩音频时,就算只是无损——注意,我们现在常见的几种无损压缩音频格式少有能直接压缩 24bit、32bit 的,甚至于同时无损压缩多声道的。至少,我没有看到 APE(Monkey’s Audio)、FLAC(自由无损音频编码)的技术说明中提到这个。但是,我在 Windows Media Audio 9.2 Lossless 中看到了这个。它的最高无损压缩音质是:VBR Quality 100, 96 kHz, 5.1 Channel 24 bit VBR。

我从 PS2 游戏 Gran Turismo 4 中导出过 15 首古典音乐,这 15 首古典乐也发行过 CD。CD 的音频格式我想不用多说了吧? PCM 16bit, 44.1kHz。而我从游戏中导出的音质可以达到 24bit。这 24bit WAV 音频再通过 Windows Media Audio 9.2 Lossless 压缩后得到如此编码格式的音频:Windows Media Audio 9.2 Lossless (VBR Quality 100, 44 kHz, 2 channel 24 bit 1-pass VBR)。我先把我的 15 首曲目的文件总大小告诉大家:623MB,所有文件都嵌入 JPEG 的封面,也都打上了 WM 标记。因此,音频数据也应该是有 615MB 以上。就算是通过那篇文章的作者——再加上 RAR 压缩——同志,对于繁杂数据格式文件的音视频,压缩包只能压缩的是一些冗余数据,不能构成任何形式上的压缩比的——只能够最小是 615MB 的数据。而,使用 CD-Audio 音质无损抓轨的 FLAC(电驴上有资源,Gran Turismo 4 Original Soundtrack ~Classic Collection~)在 RAR 后,也只是 329MB。由于游戏中的曲名与 CD 曲名的注明文字不同,我只把 CD 上最后的一个曲目 Canon 的技术数据信息拿出来做个对照吧:1634kbps VBR。请问,有哪个 16bit 无损 VBR Q100 的可以达到如此数据记录量的? 16bit PCM 44.1kHz 的比特率不过也只有 1141kHz 罢了(16bit 48kHz 约为 1.5Mb,24bit 48kHz 则能达到 2Mb)。而欣赏 24bit 的无损音乐的细节感是 CD 音质无法体现的。但是,这必须是原生 24bit,而不能是如同 EAC 抓 WMA,16bit WAV->WMA10Pro 24bit VBR 98……这种实际音质也只不过是 WMA10Pro 16bit VBR 98。我得说一下,我的这个 24bit 44.1kHz WAV 是超过一张 CD 的空间了,当然是 HDCD 质量……

说到 HDCD,就不得不说下 SACD,HDCD 是 24bit(20bit 记录)回放的高音质 CD,采样率与 CD 一样,44.1kHz。SACD 则是可以支持双层 CD,而新格式的 Hybrid 格式则分数据层与普通层,数据层是记录纯数字处理的 1bit 信号,普通层则是记录用于通用 CD 格式的模拟音频。纯 SACD 则只支持专用播放器播放。

y1pzaGl3aiHa9NDdRZ0eLT1YoCNrohZMvGg794A1pY3R7cL8th4YDQeh1WsBRP8Dtz4T7wCsCqQ0Xo?PARTNER=WRITER y1pzaGl3aiHa9OhLUvGIPBugpEpzwbGqnRustAHDv9884yHs843rj6rQM9CIXXXrBPuW4k32gKjIK8?PARTNER=WRITER

在上面,可以看到,在压缩(或处理)后的文件我们必须要能够看到,当音质越高,占用的空间则就越大。那位“高人”在说 DVD 的多声道压缩中说用了有损方式,那么,我们的一张 DVD 电影通常是多大的光盘?不是 D5 就是 D9,D9 只有 8.5GB 的空间,那么长的 2ch, 44.1kHz, 16bit PCM 声音文件就已经是多大了?如果是 5.1ch,其他相等,就是原本的三倍。我的 15 首古典乐是 59 分钟,24bit 44.1kHz,如果用 PCM 记录的话,已经是超过 800MB 了。而 DVD 视频要想达到没有多少损失的话,MPEG-2 的一般最佳无损压缩也需要是 8Mbps。这样合成的音视频流就基本达到了 10Mbps,一张 D9 的 DVD 只能记录双声道 24bit, 44kHz 2 小时左右的电影,需要 5.1 声道的话,则是 40 分钟左右,7.1 声道,那就只能一张盘看半小时不到了!这是目标媒体所限制,并不是技术有意这样。不可能为了一部电影出一套 D18 的 DVD 吧?那样的成本是很高的。

另外,至于设备的回放不能硬件达标问题,这点其实并不是推出音频格式所必须考虑的问题。为什么呢?格式技术不能去过多地考虑一些现成问题,这些问题是会在以后的将来有可能会解决的。否则,我们现在怎么还会出现了能达到单碟超过 100GB 的 BD 光盘技术呢?视频也在玩“FullHD——1920×1080”(1080p)呢。