第 13 章:人声录制与处理链——从“录到一条干声”到“能进配乐”
1. 开篇:代码世界中的“肉嗓”
Sonic Pi 是一个由正弦波、方波和数学逻辑构建的纯净世界。在这个世界里,一切都是完美的:节奏精确到毫秒,音准不存在偏差。
然而,当我们试图创作华语古风(Gu Feng)或电影配乐(Cinematic)时,这种“完美”往往是致命的。
- 古风的灵魂在于“韵”:那些并不在钢琴键上的滑音、气口和微颤。
- Hans Zimmer 式史诗感的来源往往是“不完美的人性叠加”:几十个人声轨道的微小偏差汇聚成的巨大声墙。
本章将暂时把视线从代移开,聚焦于音频工程(Audio Engineering)。因为在 Sonic Pi 中写出 sample :my_voice 是一回事,但让这个 :my_voice 听起来像专业的戏腔名伶或好莱坞大片,则是另一回事。
本章目标:
- 录音:在非专业环境下(如卧室)获得可用的干声。
- 修音与整形:理解“音高(Pitch)”与“共振峰(Formant)”的分离,掌握戏腔的“曲线修音法”。
- 制造厚度:通过多层录制(Double Tracking)模拟 Zimmer 式合唱。
- 空间与融合:三种风格(古风/久石让/Zimmer)的混响与延迟策略。
2. 录音阶段:决定素材生死的物理法则
2.1 卧室制作人的声学自救
大多数 Sonic Pi 用户没有专业的吸音棚。在卧室录音,最大的敌人是房间混响(Room Tone)和环境底噪。
Rule of Thumb(卧室录音法则):
- 衣柜录音法(Closet Hack):打开装满衣服的衣柜门,背对衣,把麦克风对着衣柜内部唱。衣服是极佳的吸音材料,能吸收掉反射声,让你得到一条非常“干”的声音。
- 指向性选择:务必使用心形指向(Cardioid)麦克风,并确保麦克风背面(盲区)对着电脑风扇或窗户。
2.2 增益架构(Gain Staging):为什么是 -12dB?
在模拟时代(磁带),我们希望录得大声以压过底噪。但在 24-bit 数字录音时代,不要追求波形“顶满”。
- -18dBFS 到 -12dBFS:这是黄金区域(Sweet Spot)。
- 这个音量能保证你的信噪比足够好。
- 这个音量给后续的效果器(EQ、压缩、混响)留出了足够的动态余量(Headroom)。
- 红线警告:一旦数字波形触顶(0dBFS),波形会被直接削平(Clipping)。这种失真是不可逆的,听起来像刺耳的撕裂声,后期无法修复。
3. 编辑与修音:保留“人性”的艺术
3.1 呼吸与气口的理
在流行音乐工业中,呼吸声常被视为噪音切除。但在古风和配乐中,呼吸是乐器。
- 古风/戏腔:保留句首的吸气声,这叫“偷气”。如果切掉,听众会觉得歌手快憋死了,情感会断层。
- 处理手法:不要切除,而是画一个 Volume Automation(音量包络),将呼吸声压低 6dB。
- Zimmer 式合唱:由于是多人叠加,几十个呼吸声叠在一起会变成白噪音。必须切除或用 Noise Gate(噪声门) 极快地关断。
3.2 戏腔修音专项:曲线 vs 阶梯
这是本章最硬核的部分。市面上的修音软件(Melodyne, Auto-Tune, VariAudio)默认逻辑是把波形拉直。这对戏腔是毁灭性的。
戏腔的音准特征:
- 滑音起式:音符往往不是直接击中音高,而是从低三度或五度滑上去。
- 回转收式:尾音往往会上扬或下行,形成“余韵”。
- 中间微颤:长音部分会有高频的颤音(Vibrato)。
ASCII 图解:修音逻辑对比
[原始戏腔波形]
/~~~~~\
/ \
__/ \__ (充满曲线和动态)
[错误操作:全选 -> 100% 量化]
_______
__| |__ (变成了 T-Pain 机器人,韵味全无)
[正确操作:手动分段处理]
保留 修准 保留
/ [~~~~~] \
/ (仅微调) \
_/ (中心轴) \_
操作指南:
- 剪刀手:在 DAW 中,把音符的“滑音头”、“稳定腹”、“滑音尾”切开。
- 只修肚子:只对中间的“稳定腹”进行音高中心校准。
- 描画曲线:如果软件支持(如 Melodyne),手动减小颤音幅度(Modulation),但绝不要拉直。
在 Sonic Pi 中,pitch 参数通常会同时改变音高和播放速度(像快放磁带)。但这并不是我们想要的“变声”。我们需要的是Formant Shifting。
4.1 什么是共振?
- Pitch (基频):声带震动的快慢。决定了音高。
- Formant (共振峰):喉咙、口腔、鼻腔的物理尺寸对声音的滤波作用。决定了音色。
- 小管子(小孩/女性)= 共振峰高。
- 大管子(巨人/怪兽)= 共振峰低。
4.2 常见应用场景与参数
你需要在 DAW 中使用支持 Formant Shift 的插件(如 Little AlterBoy, Melodyne, Vocal Transformer)处理采样,然后导入 Sonic Pi。
| 目标风格 |
Formant 调整值 |
Pitch 调整值 |
听感描述 |
适用场景 |
| 伪·旦角 |
+2 ~ +4 semi |
0 |
尖细、头腔共鸣强、年轻化 |
男声唱戏腔,或女声模仿童声 |
| 妖/魔 |
-12 semi (降低) |
0 |
极度深沉、胸腔共鸣、非人感 |
仙侠剧中的反派、Boss 战背景音 |
| 精灵/仙气 |
+1 semi |
0 |
稍微提亮,增加空气感 |
古风背景吟唱(Pad 类人声) |
| Zimmer 怪物 |
-5 semi |
-12 semi |
巨大、迟、压迫感 |
史诗预告片的 Drop 段落 |
5. 制造厚度:人声叠加与声码器
5.1 双轨与四轨录音(Double/Quad Tracking)
Zimmer 的配乐之所以“大”,不是因为音量大,而是因为“宽”。
如果你想让一段副歌(Chorus)听起来有力量,永远不要只复制粘贴轨道。
操作流程:
- 录 Main:录一遍主旋律,放中间(Pan Center)。
- 录 Double L:重新唱一遍同样的旋律,放极左(Pan 100% Left)。
- 录 Double R:再重新唱一遍同样的旋律,放极右(Pan 100% Right)。
- 效果:由于三次演唱微小的音准和时间误差,左右声道会产生极宽的立体声场,声音瞬间变厚 3 倍。
5.2 假合唱团(The Fake Choir)
只有你一个人,怎么做出 50 人的效果?
- 录制 4 轨原调。
- 录制 4 轨高八度(假声)。
- 录制 4 轨低八度。
- 关键步骤:对每一轨使用不同的 Formant Shift 调(有的 +0.5,有的 -0.5),模拟不同人的喉咙构造。
- 将高频部分用 Low Pass Filter 切掉一点(模拟远距离听感),送入大混响。
5.3 声码器(Vocoder)思路
在 Sonic Pi 这种电子环境中,将人声“合成器化”是很好的融合手段。
- 原理:用人声的频谱包络去“雕刻”合成器(如 Saw Wave)的声音。
- Sonic Pi 实现思路:通常不在 Sonic Pi 内实时做(CPU 消耗大),建议在 DAW 中用 Vocoder 插件做好,导出为 Wav,再在 Sonic Pi 中作为
sample 触发,配合 :slicer 效果器切片,能做出极具节奏感的电子戏腔。
6. 混音与空间:三种流派的具体的参数
人声处理完后,需要放入 Sonic Pi 的代码织体中。这时,Reverb 和 EQ 是胶水。
6.1 久石让式(清晰、亲密、叙事)
目标:像是在音乐厅的第一排,歌手就在指挥旁边。
- EQ:略微提升 3kHz-5kHz(增加空气感),切除 150Hz 以下。
- Reverb:
- Type: Plate 或 Chamber
- Time (Decay): 1.2s - 1.8s
- Pre-delay: 20ms - 40ms(关键!让干声先出来,混响晚一点出来,保证字字清晰)。
- Mix: 15% - 20%
6.2 古风/仙侠式(遥远、唯美、写意)
目标:山谷、云端、甚至非物理空间。
- EQ:激进的 High Pass(切掉 200Hz-300Hz),只留中高频,防止浑浊。
- Reverb:
- Type: Hall 或 Church
- Time: 3.0s - 6.0s
- Pre-delay: 0ms - 10ms(让人声直接融化在空间里)。
- Damping (高频衰减):较强。让尾音暗淡下去,不要刺耳。
- Delay:必须加。使用 Ping-Pong Delay,1/4 或 1/8 附点音符,Feedback 30%,作为人声的影子。
6.3 Hans Zimmer 式(乐器化、巨大、压迫)
目标:人声不是为了听清歌词,而是作为一种“人肉合成器”。
- EQ:提升中低频(200Hz-500Hz)的厚度,甚至保留 100Hz 的胸腔感。
- Reverb:
- Type: Cathedral (大教堂) 或 Massive Hall
- Time: 4s+
- Width (宽度):200%(超宽立体声)。
- 技巧:人声的音量往往比你想象的要小,它被“埋”在管弦乐中,只在大动态时透出来。
7. 避让与融合:频谱上的交通指挥
在 Sonic Pi 中,如果你的代码写了复杂的 :saw 琶音,人声放进去通常会打架。
7.1 静态 EQ 避让 (The Pocket)
- 人声的核心频率是 1kHz - 3kHz(清晰度)和 200Hz - 400Hz(温暖度)。
- 操作:在你的 Sonic Pi 配乐轨道(或导出的伴奏)上,使用 EQ 在这两个频段挖一个 -3dB 到 -5dB 的坑。
- 这叫“给主唱留个座位”。
7.2 动态编曲避让
这是一个作曲层面的 Rule of Thumb:
- 人声动,伴奏静:人声在唱复杂的戏腔转音时,伴奏(Sonic Pi)最好是长音 Pad 或简单的分解和弦。
- 人声停,伴奏动:人声的气或长音结尾时,Sonic Pi 的旋律线(Fill-in)或琶音再冲出来填补空白。
- 永远不要让合成器的主旋律和人声唱同一个音区的复杂旋律,除非你想做齐唱。
8. 本章小结
- 物理优先:最好的混音是无需混音的录音。衣柜是卧室制作人的好朋友。
- 戏腔修音:是“修整”不是“矫正”。保护滑音曲线和颤音,就像保护文物一样。
- Formant 分离:想要古风“旦角”感或 Zimmer“怪兽”感,调共振峰比调音高更重要。
- 叠加法则:单轨是单薄的,多轨(Double Tracking)是宽广的。
- 空间策略:久石让求“近”,古风求“远”,Zimmer 求“融”。
9. 练习题
基础题 (50%)
练习 13.1:干声质量自检
录制一段 10 秒的安静环境音(Room Tone)。
- 任务:在 Sonic Pi 或 DAW 中将这段“静音”放大 20dB。
- 观察:你听到了什么?是均匀的“沙”声(底噪),还是周期性的“嗡嗡”声(电流/冰箱),还是不规则的汽车声?
- 思考:哪种噪音可以用 High Pass Filter 去除?哪种必须重录?
参考答案
* **低频嗡嗡声/汽车声**:大部分可以通过 High Pass Filter (切除 80Hz-100Hz) 去除,不影响人声。
* **全频段底噪/人声对话**:必须重录。如果在后期去噪,会严重破坏人声高频,产生“水底音”失真。
练习 13.2:共振峰听感辨析
找一段男声录音。
- 任务 A:Pitch +0, Formant +4 半音。
- 任务 B:Pitch +4 半音, Formant +4 半音(传统变速)。
- 问题:描述两者的区别。哪一个听起来像“某种乐器”或“旦角”,哪一个听起来像“卡通人物”?
参考答案
* **A (Formant Shift)**:听起来像原来的男歌手变成了一个音色很亮、头腔很窄的人(甚至像女性),但高没变。这更接近“旦角”或“伪声”技巧。
* **B (Traditional Pitch Shift)**:听起来像“花栗鼠”或卡通人物。因为所有频率(包括基频和泛音)都被均匀拉伸了,这是典型的“磁带快放”效果。
练习 13.3:久石让式预延时 (Pre-delay)
在 DAW 或 Sonic Pi 中加载一个 Reverb。
- 任务:设置混响时间 2秒。分别设置 Pre-delay 为 0ms 和 50ms。
- 问题:当人声唱出歌词时,哪种设置能让你听清咬字?为什么?
参考答案
* **50ms Pre-delay** 能听得更清。
* **原因**:Pre-delay 制造了直达声(干声)和反射声(湿声)之间的时间差。这 50ms 的空隙让听众的大脑先捕获了清晰的辅音(咬字),随后才听到混响的包围感。0ms 会让混响瞬间冲刷掉咬字细节。
挑战题 (50%)
练习 13.4:古风戏腔的“自动化”修整
假设你有一句戏腔:“啊~~~”(从 Re 滑到 Sol,颤音,滑回 Do)。
- 任务:如果你必须使用 Auto-Tune 类的自动插件,你应该如何设置
Retune Speed (校准速度) 和 Humanize (人性化) 参数?
- 提示:极快的 Speed 会产生电音效果。
参考答案
* **Retune Speed**: 设置得**很慢**(如 40ms - 80ms,甚至更慢)。这样插件会忽略快速的滑音和颤音,只在音符极其稳定时才介入校准。
* **Humanize**: 设置得**较高**。
* **最佳策略**:如果只能用自动插件,使用 **Automation (自动化控制)**。在滑音发生时,将 Retune Speed 自动化到“0”(即关闭效果),在稳定长音时再打开。
练习 13.5:双轨叠加的“伪随机”实验
在 Sonic Pi 中,加载同一个 sample :vocal_a 两次。
- 代码尝试:
- 同时触发,Pan 设为 -1 和 1。
- 同时触发,但其中一个
rate: 1.001 (快千分之一),Pan 设为 -1 和 1。
- 问题:情况 1 和情况 2 听起来有什么区别?这就解释了为什么不能简单复制轨道。
参考答案
* **情况 1**:听起来还是单声道(Mono),只是变响了。因为左右耳信号完全一致,大脑会将其定位在正中间。
* **情况 2**:听起来非常宽。微小的速度差异导致了**相位差**(Phasing),声音会在声场中游离,产生一种人工的立体声厚度。这就是 Double Tracking 的原理模拟。
练习 13.6:频谱“让位”实战
你的 Sonic Pi 代码正在演奏一段厚重的低音大提琴(Cello)和中频丰富的钢琴,此时人声进场。
- 任务:写出一段伪代码或处理逻辑,描述如何通过 EQ 和 Sidechain(侧链)让人声浮现出来。
参考答案
1. **EQ 静态处理**:切除钢琴和 Cello 在 2.5kHz 附近的频率(-3dB,Q=1.0),这是人声“亮度”的所在。
2. **Sidechain (侧链压缩)**:在 Sonic Pi 中,可以使用 `:compressor` 包裹乐器轨道。
* 将人声作为 trigger。
* 每当人声触发时,乐器的音量瞬间衰减 -2dB 到 -4dB。
* Release time 要快(<100ms),让人声一停乐器马上恢复,形成“呼吸感”。
10. 常见陷阱与错误 (Gotchas)
10.1 爆破音(Plosives)灾难
- 现象:每次唱“不”、“跑”、“破”字时,耳机里都有“嘭”的一声低频巨响。
- 原因:嘴巴喷出的气流直接冲击了麦克风振膜。
- 修复:后期很难修(只能切掉低频,但会损音质)。
- 预防:
- 必须买一个防喷罩(Pop Filter)。
- 土法:将一支铅笔垂直绑在麦克风正前方,可以把气流切开。
- 角度:对着麦克风的边缘唱,不要正对中心。
10.2 齿音(Sibilance)越修越刺耳
- 现象:为了让古风人声“甜美”,你疯狂提升频(High Shelf)。结果“三生三世”唱出来全是刺耳的哨音。
- 原理:你提升了 10kHz 的空气感,同时也提升了 5kHz-8kHz 的齿音区。
- 解决:
- 先用 De-esser(齿音消除器)压掉齿音。
- 再提升高频 EQ。顺序不能反。
10.3 混响太脏(Muddy Reverb)
- 现象:加了 Hall Reverb 后,整个混音变得浑浊不堪,像在澡堂子里。
- 原因:人声的低频(200Hz 以下)也被混响反射了,这些低频残响会立刻填满声音空间。
- 解决:Abbey Road Reverb Trick。在混响效果器之前(或内部)加一个 EQ,切掉混响信号 500Hz 以下的所有频率。我们要的是高频的空灵,不要低频的轰鸣。