第 6 章 · 频谱与数字分析:把「清亮」变成参数
1. 开篇段落
在数字人声音设计的协作链条中,最大的鸿沟在于「感性语言」与「理性参数」的错位。
策划师可能会说:“我希望这个角色的声音更有穿透力,像《原神》里的某某角色一样精致。”
而工程师或调音师看着波形图,脑子里想的是:“穿透力是指 3kHz 的增益?还是指瞬态(Transient)的保留?精致是指极高频的空气感,还是指底噪(Noise Floor)的完全去除?”
如果无法将这些形容词翻译成赫兹(Hz)和分贝(dB),项目的迭代将陷入无限的“盲猜”和“返工”。本章的目标是建立一套“视觉化音频标准”。我们将深入频谱分析(Spectrum Analysis)的微观世界,学习如何像医生看 CT 片一样诊断声音的频率分布,为不同的角色人设建立精确的“频谱指纹”,从而实现可复制、可量化的高质量声线设计。
2. 声音的深度解剖:源-滤模型与视觉化
要理解数字人的声音,必须理解人类发声的物理模型:源-滤模型 (Source-Filter Model)。这不仅是声学基础,也是所有 AI 变声(VC)和合成(TTS)技术的核心原理。
2.1 源 (Source) 与 滤 (Filter)
- 源 (Source) —— 声带的振动
- 对应参数:基频 (Fundamental Frequency, $F_0$) 及其 泛音 (Harmonics)。
- 决定了什么:音高(Pitch)、声调起伏、声音的“粗糙度”或“纯净度”。
- 听感:如果只听“源”,它就像一个嗡嗡响的蜂鸣器。
- 滤 (Filter) —— 声道的共鸣
- 对应参数:共振峰 (Formants, $F_1, F_2…$)。
- 物理意义:咽喉、口腔、鼻腔的形状对声音的“雕刻”。
- 决定了什么:音色 (Timbre)、元音 (Vowels)、体型感、年龄感。
- 关键 Rule of Thumb:
- 声道越长(成年男性),共振峰频率越低 -> 声音越浑厚。
- 声道越短(儿童/女性),共振峰频率越高 -> 声音越稚嫩。
- 变声器原理:柯南的变声器不仅仅是提高了音调($F_0$),更重要的是压缩了共振峰(Formants),模拟了小孩的短声道。
2.2 读懂频谱图 (Spectrogram)
我们在分析工具(如 iZotope RX, Audition, Voxengo SPAN)中看到的三维图谱:
Y轴 (频率 Hz)
^
| High (10k+) [空气感/嘶嘶声] ░░░░░░ (稀疏的云雾状)
|
| Mid (1k-4k) [人耳最敏感区] ▓▓▓▓▓▓▓▓▓ (主要能量集中)
|
| Low (100-300)[基频/厚度] ███████████ (实心的条纹)
|
+----------------------------------------------------> X轴 (时间 Time)
(颜色深浅/亮度 = Z轴,代表音量 dB)
- 横向条纹:通常是基频和泛音,代表音调及其和谐波。
- 纵向线条:代表瞬态(如爆破音 P/T/K),那是“打击感”的来源。
- 浑浊的云雾:通常是齿音(S/Sh)或背景噪音。
3. 听感翻译词典:频率映射全解
这是本章的核心工具。当我们需要调整数字人声线以符合特定“人设”时,请对照此表操作。
3.1 基础频段与人设关联表
| 频段 |
范围 (Hz) |
核心听感 |
正面描述 (目标) |
负面描述 (问题) |
典型角色应用 |
| 超低频 |
< 80 |
极深沉 |
震感 (Rumble) |
隆隆噪音、喷麦声 |
即使是怪兽音,通常也需切除(High-pass),避免与 BGM 打架。 |
| 基音区 |
80 - 200 |
厚 |
温暖、磁性、稳重 |
淤积、嗡嗡声 |
霸总、御姐。这是“胸腔共鸣”的所在。 |
| 浑浊区 |
200 - 500 |
肉感 |
丰满、近距感 |
发闷 (Muddy)、纸盒声 |
所有角色需警惕。合成语音常在此堆积能量,显得“假”和“闷”。 |
| 鼻音区 |
500 - 1k |
实体感 |
结实 |
鼻音 (Nasal)、电话音 |
傲娇系/正太音。适当提升可增加“哼唧”的鼻音感,过多则像感冒。 |
| 核心清晰区 |
2k - 4k |
脆度 |
清亮、咬字清晰 |
刺耳、攻击性强 |
少年音、元气少女。这是决定声音“靠前”还是“靠后”的关键。 |
| 齿音区 |
4k - 8k |
存在感 |
临场感 |
刮耳 (Harsh)、哨音 |
TTS 致命伤。AI 生成的高频常产生金属伪影,需重点压制。 |
| 空气区 |
10k+ |
光泽 |
通透、高级感 |
嘶嘶声、分离感 |
女神、精灵。二次元“精致感”的来源,那是如同丝绸般的吸声。 |
3.2 常见调音师术语的数字化翻译
- “声音太干了”:
- 不是指加混响,而是指 200Hz-400Hz 缺失,导致声音像纸片一样薄。
- 操作:使用宽带宽(Wide Q)提升 250Hz。
- “声音不够贴耳”:
- 指高频细节不足,或者动态范围太大。
- 操作:提升 10kHz+ 的空气感,并使用压缩器 (Compressor) 压低大音量部分,提升微小的呼吸声。
- “声音有塑料感/电子味”:
- 通常是 400Hz-800Hz 有奇怪的共振,或者是 6kHz-8kHz 有金属般的振铃声。
- 操作:使用窄带 EQ 进行扫频(Sweep),找到刺耳的频率点切除。
4. 角色声线频谱配方 (Recipes)
为了达到如《原神》等高规格游戏的角色塑造标准,我们需要针对不同原型(Archetype)设计特定的频谱曲线(Target Curve)。
4.1 配方 A:【御姐 / 熟女 / 权威女性】
- 考角色:雷电将军(原神)、卡夫卡(星铁)
- 听感目标:威严、磁性、不可轻视,但不能像男性那样粗糙。
- 频谱特征:
- 低频 (150Hz - 250Hz):重点保留甚至轻微提升。这是女性声音中体现“胸腔共鸣”和“成熟度”的关键区域。
- 中高频 (3kHz):保持平滑,不要过度提升。御姐不需要像少女那样“叽叽喳喳”的穿透力,而是要沉稳。
- 高频 (8kHz+):适度保留,维持清晰度即可。
[御姐 EQ 轮廓示意]
dB
| __ (Warmth)
| / \ ____ (Smooth air)
| _/ \ /
| / \___________/
+-----------------------------> Freq
100 250 1k 3k 10k
4.2 配方 B:【清亮少女 / 偶像 / 妹妹】
- 参考角色:芭芭拉(原神)、三月七(星铁)
- 听感目标:甜美、元气、高辨识度、像糖果一样脆。
- 频谱特征:
- 低频 (200Hz 以下):大胆衰减 (High-pass / Low-shelf cut)。去掉胸腔的厚重感,让声音“飘”起来。
- 中高频 (3kHz - 5kHz):显著提升 (Boost)。这是甜美度和穿透力的来源,让声音在嘈杂的 BGM 中也能跳出来。
- 极高频 (12kHz):提升。增加“Bling Bling”的光泽感。
[少女 EQ 轮廓示意]
dB
| _--_ (Sweetness/Presence)
| / \
| / \__ (Air)
| _____________/
| / (Cut mud)
+-----------------------------> Freq
100 250 1k 4k 10k
4.3 配方 C:【少年音 / 热血漫男主】
- 参考角色:班尼特(原神)、鸣人(火影)
- 听感目标:有冲劲、直率、稍微有点毛躁的质感。
- 频谱特征:
- 中频 (1kHz - 2kHz):保留甚至突出。很多“呐喊”的能量集中在这里,体现力量感。
- 中低频 (250Hz):适中。不能太厚(像大叔),也不能太薄(像伪娘)。
- 瞬态 (Transients):这不完全是频率问题,但在频谱上表现为爆破音保留较多,不做过度的平滑处理。
5. 数字人声音的特殊处理:去“AI味”
在使用 TTS (Text-to-Speech) 或 VC (Voice Conversion) 生成声音时,频谱分析尤其能帮我们发现并修复“机器味”。
5.1 问题:超高频断层与金属音
- 现象:看频谱图,16kHz 以上突然被切断(低采样率导致),或者在 4kHz-8kHz 之间有很多不自然的垂直细条纹(Vocoder Artifacts)。
- 听感:像隔着电风扇说话,或者有细微的“滋滋”电流声。
- 频谱修复方案:
- 激励 (Exciter/Saturation):在 8kHz 以上添加谐波失真,人为“补画”出缺失的高频信息,掩盖断层。
- 去嘶声 (De-esser):比处理真人声音更重手地压制 5kHz-9kHz 的特定频段,化金属感。
- 现象:频谱图上的共振峰纹理模糊不清,像被磨皮过度的照片。
- 听感:声音含糊,像嘴里含着东西。
- 频谱修复方案:
- 中频锐化:在 2kHz - 4kHz 寻找关键的元音共鸣点,做窄带提升。
- 多段压缩 (Multiband Compression):控制 200Hz-500Hz 的浑浊区,只在声音能量过大时压低它,让声音轮廓更清晰。
6. 本章小结
- 翻译官:频谱分析是连接美术需求(“清亮”)和技术实现(“提升 3kHz”)的翻译官。
- 源与滤:改变基频(源)只是变调,改变共振峰(滤)才是改变角色的人设(性别、年龄、体型)。
- 做减法:好的声音往往不是“加”出来的,而是“减”出来的。切掉 300Hz 的“闷”,声音自然就“清亮”了。
- 二次元美学:现代游戏/动漫风格的声音,通常具有“低频干净、中高频突出、极高频通透”的 V型或微笑型 EQ 曲线 特征。
- 数据化人设:不要只保存音频文件,要保存角色的 EQ 曲线预设和参考频谱截图,这才是可复用的资产。
7. 练习题
基础题 (Basic)
- 看图说话:打开任何一款音频软件(如 Audacity),对着麦克风分别发“一(yi)”和“呜(wu)”的长音。观察频谱图,哪一个音在高频(2kHz以上)有更多的能量分布?这说明了什么?
- 参数对应:如果策划觉得现在的少年音角色“太像大人装嫩”,听起来“太壮了”。在不重新录音的情况下,你应该重点检查并衰减哪个频段?(A. 80Hz, B. 250Hz, C. 4kHz, D. 12kHz)
- 滤波器理解:High-pass Filter(高通滤波器)是切掉高频还是切掉低频?为什么我们在处理人声时通常都要在 80Hz 处使用它?
点击展开基础题提示与答案
**提示:**
1. "一"是扁口音,嘴唇张开;"呜"是圆唇音。
2. "壮"对应的是体型感和胸腔共鸣。
3. 名字叫"Pass"(通过),意味着让谁过。
**答案:**
1. **“一(yi)”** 在高频有更多能量(第二共振峰 F2 较高)。这说明口腔形状直接改变了频率分布(共振峰)。
2. **B. 250Hz**。衰减这个频段可以减少“胸腔感”和“体型感”,让声音听起来更单薄、年轻。
3. **切掉低频**。它让高频“通过”。使用它是为了切除环境中的低频噪音(空调声、脚步声)以及人声中无用的超低频能量,增加净度。
挑战题 (Challenge)
- 风格复刻:找一段《原神》派蒙(Paimon)的语音。试着分析她的声音为何听起来既像小孩子,又有一种非人类的“飘浮感”?(提示:关注音调稳定性与高频空气感)。
- 逆向工程:如果一段合成的声音听起来“齿音爆炸”(S音刺耳),但你如果你简单地把频全部切掉,声音又会变得很闷。请提出一种基于频谱的动态处理思路。
- 场景思考:同一个数字人角色,在“大厅解说”场景和“手机哄睡”场景中,其 EQ(均衡器)策略应该有什么不同?
点击展开挑战题提示与答案
**提示:**
4. 派蒙的声音不仅是音调高,还有极高的音调起伏和特殊的鼻音位置。
5. 关键词是“动态”处理,只在有问题的时候处理。
6. 考虑播放设备和用户心理距离。
**答案:**
4. **派蒙分析**:
- **极高的基频**:通常在 350Hz+,远超普通人说话习惯。
- **共振峰上移**:模拟极小的声道。
- **飘浮感**:源于 **1kHz 附近的鼻音共鸣** 结合 **极少的低频信息**(几乎切掉了 300Hz 以下所有内容),使得声音没有“落地感”和“重量感”。
5. **思路**:
- 使用 **De-esser (去齿音器)** 或 **动态 EQ (Dynamic EQ)**。
- 设定阈,仅当 6kHz-8kHz 的能量超过阈值时才进行瞬间衰减。
- 这样在发元音时高频会被保留(不闷),只有发 S 音时会被压制(不刺)。
6. **场景差异**:
- **大厅解说**:需要穿透力。**切除更多低频**(避免大厅混响导致浑浊),**提升 3kHz-4kHz**(确保在嘈杂环境中清晰可辨)。
- **手机哄睡**:需要亲密感(ASMR 倾向)。**保留更多中低频 (150Hz-300Hz)**(营造在耳边低语的肉感/温暖感),**极力压制 3kHz-5kHz**(避免刺耳惊醒用户),大幅提升 **12kHz+ 空气感**(呼吸声)。
8. 常见陷阱与错误 (Gotchas)
🔴 陷阱 1:单轨独奏陷阱 (Solo Trap)
- 现象:你点击 Solo 按钮,单独听人声,精细调节 EQ,觉得完美无瑕。一放开 Solo 混入 BGM,人声瞬间不见了,或者变得很怪。
- 原理:频率是会掩蔽 (Masking) 的。BGM 的中低频可能会吃掉人声的厚度。
- 对:永远在整体混音(In Context)中微调 EQ。甚至可以故意把 BGM 开大一点来测试人声的“抗干扰能力”。
🔴 陷阱 2:过度“手术” (Over-Surgical EQ)
- 现象:看着频谱图上每一个小尖峰都觉得不顺眼,切了几十个频点。
- 后果:由于 EQ 造成的相位失真(Phase Shift),声音变得极其不自然,像是在塑料管子里说话。
- 对策:宽笔触,少动刀。除非是明显的共振噪音,否则使用宽带宽(Wide Q)进行平滑的增益或衰减。
🔴 陷阱 3:忽略播放设备
- 现象:在昂贵的监听音箱上调出了震撼的低音,结果用户用手机外放听,发现根本听不清在说什么。
- 原理:手机/平板通常重放不出 300Hz 以下的声音。
- 对策:中频即王道。确保关键信息集中在 500Hz - 4kHz 范围内,这在任何设备上都能听到。调音时务必用手机扬声器进行 Check。
🔴 阱 4:数据至上主义
- 现象:强行把频谱曲线调成和参考角色一模一样。
- 真相:不同的声优/TTS模型底色不同。强行匹配会导致严重的失真。
- Rule of Thumb:匹配轮廓,而非匹配像素。我们要的是“那种感觉”(比如 V 型曲线),而不是由于强制扭曲带来的怪异音色。