sonic_pi_tutorial

第 13 章：人声录制与处理链——从“录到一条干声”到“能进配乐”

1. 开篇：代码世界中的“肉嗓”

Sonic Pi 是一个由正弦波、方波和数学逻辑构建的纯净世界。在这个世界里，一切都是完美的：节奏精确到毫秒，音准不存在偏差。

然而，当我们试图创作华语古风（Gu Feng）或电影配乐（Cinematic）时，这种“完美”往往是致命的。

古风的灵魂在于“韵”：那些并不在钢琴键上的滑音、气口和微颤。
Hans Zimmer 式史诗感的来源往往是“不完美的人性叠加”：几十个人声轨道的微小偏差汇聚成的巨大声墙。

本章将暂时把视线从代移开，聚焦于音频工程（Audio Engineering）。因为在 Sonic Pi 中写出 sample :my_voice 是一回事，但让这个 :my_voice 听起来像专业的戏腔名伶或好莱坞大片，则是另一回事。

本章目标：

录音：在非专业环境下（如卧室）获得可用的干声。
修音与整形：理解“音高（Pitch）”与“共振峰（Formant）”的分离，掌握戏腔的“曲线修音法”。
制造厚度：通过多层录制（Double Tracking）模拟 Zimmer 式合唱。
空间与融合：三种风格（古风/久石让/Zimmer）的混响与延迟策略。

2. 录音阶段：决定素材生死的物理法则

2.1 卧室制作人的声学自救

大多数 Sonic Pi 用户没有专业的吸音棚。在卧室录音，最大的敌人是房间混响（Room Tone）和环境底噪。

Rule of Thumb（卧室录音法则）：

衣柜录音法（Closet Hack）：打开装满衣服的衣柜门，背对衣，把麦克风对着衣柜内部唱。衣服是极佳的吸音材料，能吸收掉反射声，让你得到一条非常“干”的声音。
指向性选择：务必使用心形指向（Cardioid）麦克风，并确保麦克风背面（盲区）对着电脑风扇或窗户。

2.2 增益架构（Gain Staging）：为什么是 -12dB？

在模拟时代（磁带），我们希望录得大声以压过底噪。但在 24-bit 数字录音时代，不要追求波形“顶满”。

-18dBFS 到 -12dBFS：这是黄金区域（Sweet Spot）。
- 这个音量能保证你的信噪比足够好。
- 这个音量给后续的效果器（EQ、压缩、混响）留出了足够的动态余量（Headroom）。
红线警告：一旦数字波形触顶（0dBFS），波形会被直接削平（Clipping）。这种失真是不可逆的，听起来像刺耳的撕裂声，后期无法修复。

3. 编辑与修音：保留“人性”的艺术

3.1 呼吸与气口的理

在流行音乐工业中，呼吸声常被视为噪音切除。但在古风和配乐中，呼吸是乐器。

古风/戏腔：保留句首的吸气声，这叫“偷气”。如果切掉，听众会觉得歌手快憋死了，情感会断层。
- 处理手法：不要切除，而是画一个 Volume Automation（音量包络），将呼吸声压低 6dB。
Zimmer 式合唱：由于是多人叠加，几十个呼吸声叠在一起会变成白噪音。必须切除或用 Noise Gate（噪声门） 极快地关断。

3.2 戏腔修音专项：曲线 vs 阶梯

这是本章最硬核的部分。市面上的修音软件（Melodyne, Auto-Tune, VariAudio）默认逻辑是把波形拉直。这对戏腔是毁灭性的。

戏腔的音准特征：

滑音起式：音符往往不是直接击中音高，而是从低三度或五度滑上去。
回转收式：尾音往往会上扬或下行，形成“余韵”。
中间微颤：长音部分会有高频的颤音（Vibrato）。

ASCII 图解：修音逻辑对比

[原始戏腔波形]
       /~~~~~\
      /       \
   __/         \__  (充满曲线和动态)

[错误操作：全选 -> 100% 量化]
      _______
   __|       |__    (变成了 T-Pain 机器人，韵味全无)

[正确操作：手动分段处理]
   保留   修准   保留
   /   [~~~~~]   \
  /   (仅微调)    \
_/    (中心轴)     \_

操作指南：

剪刀手：在 DAW 中，把音符的“滑音头”、“稳定腹”、“滑音尾”切开。
只修肚子：只对中间的“稳定腹”进行音高中心校准。
描画曲线：如果软件支持（如 Melodyne），手动减小颤音幅度（Modulation），但绝不要拉直。

4. 音色设计：共振峰（Formant）的魔术

在 Sonic Pi 中，pitch 参数通常会同时改变音高和播放速度（像快放磁带）。但这并不是我们想要的“变声”。我们需要的是Formant Shifting。

4.1 什么是共振？

Pitch (基频)：声带震动的快慢。决定了音高。
Formant (共振峰)：喉咙、口腔、鼻腔的物理尺寸对声音的滤波作用。决定了音色。
- 小管子（小孩/女性）= 共振峰高。
- 大管子（巨人/怪兽）= 共振峰低。

4.2 常见应用场景与参数

你需要在 DAW 中使用支持 Formant Shift 的插件（如 Little AlterBoy, Melodyne, Vocal Transformer）处理采样，然后导入 Sonic Pi。

目标风格	Formant 调整值	Pitch 调整值	听感描述	适用场景
伪·旦角	+2 ~ +4 semi	0	尖细、头腔共鸣强、年轻化	男声唱戏腔，或女声模仿童声
妖/魔	-12 semi (降低)	0	极度深沉、胸腔共鸣、非人感	仙侠剧中的反派、Boss 战背景音
精灵/仙气	+1 semi	0	稍微提亮，增加空气感	古风背景吟唱（Pad 类人声）
Zimmer 怪物	-5 semi	-12 semi	巨大、迟、压迫感	史诗预告片的 Drop 段落

5. 制造厚度：人声叠加与声码器

5.1 双轨与四轨录音（Double/Quad Tracking）

Zimmer 的配乐之所以“大”，不是因为音量大，而是因为“宽”。如果你想让一段副歌（Chorus）听起来有力量，永远不要只复制粘贴轨道。

操作流程：

录 Main：录一遍主旋律，放中间（Pan Center）。
录 Double L：重新唱一遍同样的旋律，放极左（Pan 100% Left）。
录 Double R：再重新唱一遍同样的旋律，放极右（Pan 100% Right）。
效果：由于三次演唱微小的音准和时间误差，左右声道会产生极宽的立体声场，声音瞬间变厚 3 倍。

5.2 假合唱团（The Fake Choir）

只有你一个人，怎么做出 50 人的效果？

录制 4 轨原调。
录制 4 轨高八度（假声）。
录制 4 轨低八度。
关键步骤：对每一轨使用不同的 Formant Shift 调（有的 +0.5，有的 -0.5），模拟不同人的喉咙构造。
将高频部分用 Low Pass Filter 切掉一点（模拟远距离听感），送入大混响。

5.3 声码器（Vocoder）思路

在 Sonic Pi 这种电子环境中，将人声“合成器化”是很好的融合手段。

原理：用人声的频谱包络去“雕刻”合成器（如 Saw Wave）的声音。
Sonic Pi 实现思路：通常不在 Sonic Pi 内实时做（CPU 消耗大），建议在 DAW 中用 Vocoder 插件做好，导出为 Wav，再在 Sonic Pi 中作为 sample 触发，配合 :slicer 效果器切片，能做出极具节奏感的电子戏腔。

6. 混音与空间：三种流派的具体的参数

人声处理完后，需要放入 Sonic Pi 的代码织体中。这时，Reverb 和 EQ 是胶水。

6.1 久石让式（清晰、亲密、叙事）

目标：像是在音乐厅的第一排，歌手就在指挥旁边。

EQ：略微提升 3kHz-5kHz（增加空气感），切除 150Hz 以下。
Reverb：
- Type: Plate 或 Chamber
- Time (Decay): 1.2s - 1.8s
- Pre-delay: 20ms - 40ms（关键！让干声先出来，混响晚一点出来，保证字字清晰）。
- Mix: 15% - 20%

6.2 古风/仙侠式（遥远、唯美、写意）

目标：山谷、云端、甚至非物理空间。

EQ：激进的 High Pass（切掉 200Hz-300Hz），只留中高频，防止浑浊。
Reverb：
- Type: Hall 或 Church
- Time: 3.0s - 6.0s
- Pre-delay: 0ms - 10ms（让人声直接融化在空间里）。
- Damping (高频衰减)：较强。让尾音暗淡下去，不要刺耳。
Delay：必须加。使用 Ping-Pong Delay，1/4 或 1/8 附点音符，Feedback 30%，作为人声的影子。

6.3 Hans Zimmer 式（乐器化、巨大、压迫）

目标：人声不是为了听清歌词，而是作为一种“人肉合成器”。

EQ：提升中低频（200Hz-500Hz）的厚度，甚至保留 100Hz 的胸腔感。
Reverb：
- Type: Cathedral (大教堂) 或 Massive Hall
- Time: 4s+
- Width (宽度)：200%（超宽立体声）。
技巧：人声的音量往往比你想象的要小，它被“埋”在管弦乐中，只在大动态时透出来。

7. 避让与融合：频谱上的交通指挥

在 Sonic Pi 中，如果你的代码写了复杂的 :saw 琶音，人声放进去通常会打架。

7.1 静态 EQ 避让 (The Pocket)

人声的核心频率是 1kHz - 3kHz（清晰度）和 200Hz - 400Hz（温暖度）。
操作：在你的 Sonic Pi 配乐轨道（或导出的伴奏）上，使用 EQ 在这两个频段挖一个 -3dB 到 -5dB 的坑。
这叫“给主唱留个座位”。

7.2 动态编曲避让

这是一个作曲层面的 Rule of Thumb：

人声动，伴奏静：人声在唱复杂的戏腔转音时，伴奏（Sonic Pi）最好是长音 Pad 或简单的分解和弦。
人声停，伴奏动：人声的气或长音结尾时，Sonic Pi 的旋律线（Fill-in）或琶音再冲出来填补空白。
永远不要让合成器的主旋律和人声唱同一个音区的复杂旋律，除非你想做齐唱。

8. 本章小结

物理优先：最好的混音是无需混音的录音。衣柜是卧室制作人的好朋友。
戏腔修音：是“修整”不是“矫正”。保护滑音曲线和颤音，就像保护文物一样。
Formant 分离：想要古风“旦角”感或 Zimmer“怪兽”感，调共振峰比调音高更重要。
叠加法则：单轨是单薄的，多轨（Double Tracking）是宽广的。
空间策略：久石让求“近”，古风求“远”，Zimmer 求“融”。

9. 练习题

基础题 (50%)

练习 13.1：干声质量自检 录制一段 10 秒的安静环境音（Room Tone）。

任务：在 Sonic Pi 或 DAW 中将这段“静音”放大 20dB。
观察：你听到了什么？是均匀的“沙”声（底噪），还是周期性的“嗡嗡”声（电流/冰箱），还是不规则的汽车声？
思考：哪种噪音可以用 High Pass Filter 去除？哪种必须重录？

参考答案

* **低频嗡嗡声/汽车声**：大部分可以通过 High Pass Filter (切除 80Hz-100Hz) 去除，不影响人声。 * **全频段底噪/人声对话**：必须重录。如果在后期去噪，会严重破坏人声高频，产生“水底音”失真。

练习 13.2：共振峰听感辨析 找一段男声录音。

任务 A：Pitch +0, Formant +4 半音。
任务 B：Pitch +4 半音, Formant +4 半音（传统变速）。
问题：描述两者的区别。哪一个听起来像“某种乐器”或“旦角”，哪一个听起来像“卡通人物”？

参考答案

* **A (Formant Shift)**：听起来像原来的男歌手变成了一个音色很亮、头腔很窄的人（甚至像女性），但高没变。这更接近“旦角”或“伪声”技巧。 * **B (Traditional Pitch Shift)**：听起来像“花栗鼠”或卡通人物。因为所有频率（包括基频和泛音）都被均匀拉伸了，这是典型的“磁带快放”效果。

练习 13.3：久石让式预延时 (Pre-delay) 在 DAW 或 Sonic Pi 中加载一个 Reverb。

任务：设置混响时间 2秒。分别设置 Pre-delay 为 0ms 和 50ms。
问题：当人声唱出歌词时，哪种设置能让你听清咬字？为什么？

参考答案

* **50ms Pre-delay** 能听得更清。 * **原因**：Pre-delay 制造了直达声（干声）和反射声（湿声）之间的时间差。这 50ms 的空隙让听众的大脑先捕获了清晰的辅音（咬字），随后才听到混响的包围感。0ms 会让混响瞬间冲刷掉咬字细节。

挑战题 (50%)

练习 13.4：古风戏腔的“自动化”修整 假设你有一句戏腔：“啊~~~”（从 Re 滑到 Sol，颤音，滑回 Do）。

任务：如果你必须使用 Auto-Tune 类的自动插件，你应该如何设置 Retune Speed (校准速度) 和 Humanize (人性化) 参数？
提示：极快的 Speed 会产生电音效果。

参考答案

* **Retune Speed**: 设置得**很慢**（如 40ms - 80ms，甚至更慢）。这样插件会忽略快速的滑音和颤音，只在音符极其稳定时才介入校准。 * **Humanize**: 设置得**较高**。 * **最佳策略**：如果只能用自动插件，使用 **Automation (自动化控制)**。在滑音发生时，将 Retune Speed 自动化到“0”（即关闭效果），在稳定长音时再打开。

练习 13.5：双轨叠加的“伪随机”实验 在 Sonic Pi 中，加载同一个 sample :vocal_a 两次。

代码尝试：
1. 同时触发，Pan 设为 -1 和 1。
2. 同时触发，但其中一个 rate: 1.001 (快千分之一)，Pan 设为 -1 和 1。
问题：情况 1 和情况 2 听起来有什么区别？这就解释了为什么不能简单复制轨道。

参考答案

* **情况 1**：听起来还是单声道（Mono），只是变响了。因为左右耳信号完全一致，大脑会将其定位在正中间。 * **情况 2**：听起来非常宽。微小的速度差异导致了**相位差**（Phasing），声音会在声场中游离，产生一种人工的立体声厚度。这就是 Double Tracking 的原理模拟。

练习 13.6：频谱“让位”实战 你的 Sonic Pi 代码正在演奏一段厚重的低音大提琴（Cello）和中频丰富的钢琴，此时人声进场。

任务：写出一段伪代码或处理逻辑，描述如何通过 EQ 和 Sidechain（侧链）让人声浮现出来。

参考答案

1. **EQ 静态处理**：切除钢琴和 Cello 在 2.5kHz 附近的频率（-3dB，Q=1.0），这是人声“亮度”的所在。 2. **Sidechain (侧链压缩)**：在 Sonic Pi 中，可以使用 `:compressor` 包裹乐器轨道。 * 将人声作为 trigger。 * 每当人声触发时，乐器的音量瞬间衰减 -2dB 到 -4dB。 * Release time 要快（<100ms），让人声一停乐器马上恢复，形成“呼吸感”。

10. 常见陷阱与错误 (Gotchas)

10.1 爆破音（Plosives）灾难

现象：每次唱“不”、“跑”、“破”字时，耳机里都有“嘭”的一声低频巨响。
原因：嘴巴喷出的气流直接冲击了麦克风振膜。
修复：后期很难修（只能切掉低频，但会损音质）。
预防：
1. 必须买一个防喷罩（Pop Filter）。
2. 土法：将一支铅笔垂直绑在麦克风正前方，可以把气流切开。
3. 角度：对着麦克风的边缘唱，不要正对中心。

10.2 齿音（Sibilance）越修越刺耳

现象：为了让古风人声“甜美”，你疯狂提升频（High Shelf）。结果“三生三世”唱出来全是刺耳的哨音。
原理：你提升了 10kHz 的空气感，同时也提升了 5kHz-8kHz 的齿音区。
解决：
1. 先用 De-esser（齿音消除器）压掉齿音。
2. 再提升高频 EQ。顺序不能反。

10.3 混响太脏（Muddy Reverb）

现象：加了 Hall Reverb 后，整个混音变得浑浊不堪，像在澡堂子里。
原因：人声的低频（200Hz 以下）也被混响反射了，这些低频残响会立刻填满声音空间。
解决：Abbey Road Reverb Trick。在混响效果器之前（或内部）加一个 EQ，切掉混响信号 500Hz 以下的所有频率。我们要的是高频的空灵，不要低频的轰鸣。