超高采样率意义何在？(上)

文，制图：艾夫

写这篇文章的时候我甚至有点提心吊胆，因为这个话题太能引发争论了，尤其是关于“玄学”和“科学”的争论。所以我在这个话题内会尽量避免任何的主观判断，完全用仿真的结果来充实我的观点，以供读者朋友们参考。

在“采样”系列的第二篇文章（点击查看）中，我讲过采样率和信号频率的关系，即奈奎斯特采样定理。它描述了信号频率和采样频率的关系，即：当采样率严格大于信号频率的两倍时，可以完美地还原出原始波形（采样率恰好等于信号频率两倍时，则有可能无法还原）。

所以有一个简单粗暴的结论：对于最多能听到20kHz的耳朵（统计意义上），采样率达到40kHz就够了！

但是声卡厂商、ADDA厂商、软件厂商好像不认这一点。

Waves公司的插件提供了超过44100Hz的采样率支持

PreSonus公司的Studio One Professional 5提供最高384kHz、64bit的内部处理精度

大名鼎鼎的ESS公司的参考级ADC“ES9822 PRO”拥有最高768kHz（注意是kHz）的采样率

Focusrite的入门级声卡Scarlett 2i2也可以提供最高192kHz的采样率

如果44100/48000Hz的采样率够用的话，凭什么他们还要费这般功夫呢？仅仅是为了噱头，去卖出更高价钱吗？

所以要好好捋一捋，采样在整个声音制作的过程中，面对的是什么信号。

声音制作当然不只是播放出声音的过程。实际上，每一个数字音频作品的制作和体验，都需要经过录音/信号生成、信号处理、信号合成输出/播放的过程。所有涉及到数字音频的环节，都必然和采样率挂钩。

好，我们一个一个讲。

录音的采样率问题

（本文“上篇”就只讨论这部分！！）

录音环节，我们将用着拾音器材和音频接口，去面对我们所需要的音频素材。虽然人耳最多能听到20kHz，但是世间万物可不是为了我们耳朵而存在的，超出人耳听觉范围的声音信号多得是。就算是我们的嘴巴产生的信号，实际上也可以超出这个范围，比如我刚刚在192kHz采样率下用电容话筒录制的几句话，高频的齿音部分就可以扩展到接近40kHz的地方。

人声信号的最高频已经超过了我们熟知的20kHz

而这仅仅是人声而已，人声的高频相对来说也不算多的。铜管乐器、某些打击乐器的泛音可以延伸到更高，而对于合成器，这个频率甚至可以无线延伸……

方波的频率理论上可以无限延伸

“我反正听不到这么高的频率，那我采样率低一些，不录了总成了吧？”

没那么简单！

高频信号虽然无法被耳朵感知，但是在采样过程中，它们依然是信号，话筒不会因为人耳听不到就不采集高频的信息，ADC也同样不会因为人耳听不到而不采样高频信号。

高频信号被太低的采样率采样下来会变成什么样呢？举个例子，在48000Hz的采样率下采样一个50000Hz的正弦波信号，你会得到一个——

在48kHz下采样的50kHz正弦波信号却是一个2kHz的正弦波

50kHz，你凭什么是一个2kHz的正弦波？

再测试一下51kHz、52kHz、53kHz……在48kHz下的采样，结果分别产生了3kHz、4kHz、5kHz……的正弦波信号。

这意味着：高频采样在不满足奈奎斯特采样定理的情况下会产生低频率的、人耳可闻的干扰信号。稍微计算一下还可以发现，这个新的信号频率F2等于高频信号频率F1减去采样率Fs，即F2 = F1-Fs。

这种现象在工程中称为“混叠（Aliasing）”。这样的采样称为“欠采样（Undersampling）”。

如果我们做一个线性调频信号，从20000Hz到28000Hz均匀地扫描，然后在48000Hz下采样，可以获得这样的频谱图：

从20kHz扫频到28kHz，其中在24kHz的地方产生了过渡，此时采样率不再满足奈奎斯特定理

可以看到，当采样率不满足采样定理之后，波形产生了欠采样，原本应该“往上跑”的频率撞到了墙，往回弹了，同时满足F2 = F1-Fs的规则。更加不巧的是，这只是单个频率的混叠。如果我们产生的是锯齿波信号这样的包含多个频率的波形的话，频谱图会更加难看：

本来就具有极其丰富的谐波的锯齿波信号，每一个谐波都在扫频过程中产生了非常严重的混叠，此时的声音已经不是锯齿波的特性了

往下跑的混叠频率和原本的信号混合，可能会产生明显的拍频（Beating）：

44100Hz采样22049Hz的信号（0.5秒）

44100Hz采样22048Hz的信号（0.5秒）

可以看到波形的幅度产生了正弦波形状的变化，听起来就是嗡嗡的。下面的音频可以感受一下这是啥体验（注意控制音量、保护耳朵）：

这个包络线的频率恰好是奈奎斯特频率和信号频率之差。

所以，由于混叠的存在，在奈奎斯特频率附近的信号即使符合采样定理，也是不能完美还原的。

因此，为了在录音的时候能够不被过高频率的声音污染到低频率可闻区域，我们有两种方法：要不就提高采样率到不会混叠的程度，要不就设法让采样前的声音去掉过高频的部分。

实际操作中后者更加常用，而且是每个ADC必备的功能：抗混叠滤波器。

简而言之就是设计一个模拟的滤波器使得超过某个频点的声音信号全部消除，只通过符合采样定理要求的声音信号，比如这样：

理想的抗混叠滤波器：在采样率能够覆盖频率内完全保留且不失真，更高频率的信号完全不保留

佩利-维纳定理（Paley-Wiener Theorem）狠狠敲了你一把：“想啥呢”！

严谨地解释这个定理需要涉及大家都不爱看的公式推导，所以简单来说就是这样的滤波器是不可能用模拟电路实现的。因为这样的滤波器是非因果的。非因果系统(Noncausal System)指的是，你要输出的信号，与未来的输入信号相关。如果你无法制造时间机器，那么那就无法完美地滤波。

（数字域上倒是可以实现，做个傅里叶变换后删除高频率信息再反傅里叶变换就好，但是这样也不属于因果系统，只能获得完整波形后才能实现，所以也没人这么干）

因此工程中的滤波器是带有一定滚降（Roll-off）的。比如这样：

或者这样：

图解实际的抗混叠滤波器设计思路

上图例子1中的抗混叠滤波器的截止频率是24000Hz，假设经过滚降最终在28000Hz衰减到非常低的量级，此时信号仍然带有高频成分，但是这部分即使被采样至48kHz的频率，仍然可以确保混叠发生在人耳不可闻的20kHz以上的频段。这样就保护了人耳可听范围内不会因为混叠而干扰。例子2中则截去了2.4kHz以上的频率，此时通过采样也不会产生混叠。

既然理想抗混叠滤波是无法实现的，那不如从设计上提供一些余量，因此工程应用中常常用实际最高频率的2.5倍采样率进行采样。优质的抗混叠滤波器具有更优秀的性能和复杂的设计，以应对滤波器其他的性能限制。总之，在录音阶段，你的声卡已经帮你设计好了足够好的声音保护方案，因此你更需要的是混音阶段的考虑。

下期见！

★★★

艾夫之“采样”系列专题

★★★

本文作者

艾夫

音乐制作人、编曲人、混音师、艾楽音乐工作室主理人、华中科技大学光电信息专业硕士。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。