voice_design_tutorial

第 6 章 · 频谱与数字分析:把「清亮」变成参数

1. 开篇段落

在数字人声音设计的协作链条中,最大的鸿沟在于「感性语言」与「理性参数」的错位。

策划师可能会说:“我希望这个角色的声音更有穿透力,像《原神》里的某某角色一样精致。” 而工程师或调音师看着波形图,脑子里想的是:“穿透力是指 3kHz 的增益?还是指瞬态(Transient)的保留?精致是指极高频的空气感,还是指底噪(Noise Floor)的完全去除?”

如果无法将这些形容词翻译成赫兹(Hz)和分贝(dB),项目的迭代将陷入无限的“盲猜”和“返工”。本章的目标是建立一套“视觉化音频标准”。我们将深入频谱分析(Spectrum Analysis)的微观世界,学习如何像医生看 CT 片一样诊断声音的频率分布,为不同的角色人设建立精确的“频谱指纹”,从而实现可复制、可量化的高质量声线设计。


2. 声音的深度解剖:源-滤模型与视觉化

要理解数字人的声音,必须理解人类发声的物理模型:源-滤模型 (Source-Filter Model)。这不仅是声学基础,也是所有 AI 变声(VC)和合成(TTS)技术的核心原理。

2.1 源 (Source) 与 滤 (Filter)

  1. 源 (Source) —— 声带的振动
    • 对应参数基频 (Fundamental Frequency, $F_0$) 及其 泛音 (Harmonics)
    • 决定了什么:音高(Pitch)、声调起伏、声音的“粗糙度”或“纯净度”。
    • 听感:如果只听“源”,它就像一个嗡嗡响的蜂鸣器。
  2. 滤 (Filter) —— 声道的共鸣
    • 对应参数共振峰 (Formants, $F_1, F_2…$)
    • 物理意义:咽喉、口腔、鼻腔的形状对声音的“雕刻”。
    • 决定了什么音色 (Timbre)元音 (Vowels)体型感年龄感
    • 关键 Rule of Thumb
      • 声道越长(成年男性),共振峰频率越低 -> 声音越浑厚。
      • 声道越短(儿童/女性),共振峰频率越高 -> 声音越稚嫩。
      • 变声器原理:柯南的变声器不仅仅是提高了音调($F_0$),更重要的是压缩了共振峰(Formants),模拟了小孩的短声道。

2.2 读懂频谱图 (Spectrogram)

我们在分析工具(如 iZotope RX, Audition, Voxengo SPAN)中看到的三维图谱:

    Y轴 (频率 Hz)
    ^
    | High (10k+)  [空气感/嘶嘶声]   ░░░░░░           (稀疏的云雾状)
    |
    | Mid (1k-4k)  [人耳最敏感区]    ▓▓▓▓▓▓▓▓▓        (主要能量集中)
    |
    | Low (100-300)[基频/厚度]       ███████████      (实心的条纹)
    |
    +----------------------------------------------------> X轴 (时间 Time)
    (颜色深浅/亮度 = Z轴,代表音量 dB)

3. 听感翻译词典:频率映射全解

这是本章的核心工具。当我们需要调整数字人声线以符合特定“人设”时,请对照此表操作。

3.1 基础频段与人设关联表

频段 范围 (Hz) 核心听感 正面描述 (目标) 负面描述 (问题) 典型角色应用
超低频 < 80 极深沉 震感 (Rumble) 隆隆噪音、喷麦声 即使是怪兽音,通常也需切除(High-pass),避免与 BGM 打架。
基音区 80 - 200 温暖、磁性、稳重 淤积、嗡嗡声 霸总、御姐。这是“胸腔共鸣”的所在。
浑浊区 200 - 500 肉感 丰满、近距感 发闷 (Muddy)、纸盒声 所有角色需警惕。合成语音常在此堆积能量,显得“假”和“闷”。
鼻音区 500 - 1k 实体感 结实 鼻音 (Nasal)、电话音 傲娇系/正太音。适当提升可增加“哼唧”的鼻音感,过多则像感冒。
核心清晰区 2k - 4k 脆度 清亮、咬字清晰 刺耳、攻击性强 少年音、元气少女。这是决定声音“靠前”还是“靠后”的关键。
齿音区 4k - 8k 存在感 临场感 刮耳 (Harsh)、哨音 TTS 致命伤。AI 生成的高频常产生金属伪影,需重点压制。
空气区 10k+ 光泽 通透、高级感 嘶嘶声、分离感 女神、精灵。二次元“精致感”的来源,那是如同丝绸般的吸声。

3.2 常见调音师术语的数字化翻译


4. 角色声线频谱配方 (Recipes)

为了达到如《原神》等高规格游戏的角色塑造标准,我们需要针对不同原型(Archetype)设计特定的频谱曲线(Target Curve)。

4.1 配方 A:【御姐 / 熟女 / 权威女性】

    [御姐 EQ 轮廓示意]
    dB
    |      __ (Warmth)
    |     /  \               ____ (Smooth air)
    |   _/    \             /
    |  /       \___________/
    +-----------------------------> Freq
      100    250    1k     3k    10k

4.2 配方 B:【清亮少女 / 偶像 / 妹妹】

    [少女 EQ 轮廓示意]
    dB
    |                  _--_ (Sweetness/Presence)
    |                 /    \
    |                /      \__ (Air)
    |  _____________/
    | / (Cut mud)
    +-----------------------------> Freq
      100    250    1k     4k    10k

4.3 配方 C:【少年音 / 热血漫男主】


5. 数字人声音的特殊处理:去“AI味”

在使用 TTS (Text-to-Speech) 或 VC (Voice Conversion) 生成声音时,频谱分析尤其能帮我们发现并修复“机器味”。

5.1 问题:超高频断层与金属音

5.2 问题:共振峰涂抹 (Formant Smearing)


6. 本章小结

  1. 翻译官:频谱分析是连接美术需求(“清亮”)和技术实现(“提升 3kHz”)的翻译官。
  2. 源与滤:改变基频(源)只是变调,改变共振峰(滤)才是改变角色的人设(性别、年龄、体型)。
  3. 做减法:好的声音往往不是“加”出来的,而是“减”出来的。切掉 300Hz 的“闷”,声音自然就“清亮”了。
  4. 二次元美学:现代游戏/动漫风格的声音,通常具有“低频干净、中高频突出、极高频通透”的 V型或微笑型 EQ 曲线 特征。
  5. 数据化人设:不要只保存音频文件,要保存角色的 EQ 曲线预设和参考频谱截图,这才是可复用的资产。

7. 练习题

基础题 (Basic)

  1. 看图说话:打开任何一款音频软件(如 Audacity),对着麦克风分别发“一(yi)”和“呜(wu)”的长音。观察频谱图,哪一个音在高频(2kHz以上)有更多的能量分布?这说明了什么?
  2. 参数对应:如果策划觉得现在的少年音角色“太像大人装嫩”,听起来“太壮了”。在不重新录音的情况下,你应该重点检查并衰减哪个频段?(A. 80Hz, B. 250Hz, C. 4kHz, D. 12kHz)
  3. 滤波器理解:High-pass Filter(高通滤波器)是切掉高频还是切掉低频?为什么我们在处理人声时通常都要在 80Hz 处使用它?
点击展开基础题提示与答案 **提示:** 1. "一"是扁口音,嘴唇张开;"呜"是圆唇音。 2. "壮"对应的是体型感和胸腔共鸣。 3. 名字叫"Pass"(通过),意味着让谁过。 **答案:** 1. **“一(yi)”** 在高频有更多能量(第二共振峰 F2 较高)。这说明口腔形状直接改变了频率分布(共振峰)。 2. **B. 250Hz**。衰减这个频段可以减少“胸腔感”和“体型感”,让声音听起来更单薄、年轻。 3. **切掉低频**。它让高频“通过”。使用它是为了切除环境中的低频噪音(空调声、脚步声)以及人声中无用的超低频能量,增加净度。

挑战题 (Challenge)

  1. 风格复刻:找一段《原神》派蒙(Paimon)的语音。试着分析她的声音为何听起来既像小孩子,又有一种非人类的“飘浮感”?(提示:关注音调稳定性与高频空气感)。
  2. 逆向工程:如果一段合成的声音听起来“齿音爆炸”(S音刺耳),但你如果你简单地把频全部切掉,声音又会变得很闷。请提出一种基于频谱的动态处理思路。
  3. 场景思考:同一个数字人角色,在“大厅解说”场景和“手机哄睡”场景中,其 EQ(均衡器)策略应该有什么不同?
点击展开挑战题提示与答案 **提示:** 4. 派蒙的声音不仅是音调高,还有极高的音调起伏和特殊的鼻音位置。 5. 关键词是“动态”处理,只在有问题的时候处理。 6. 考虑播放设备和用户心理距离。 **答案:** 4. **派蒙分析**: - **极高的基频**:通常在 350Hz+,远超普通人说话习惯。 - **共振峰上移**:模拟极小的声道。 - **飘浮感**:源于 **1kHz 附近的鼻音共鸣** 结合 **极少的低频信息**(几乎切掉了 300Hz 以下所有内容),使得声音没有“落地感”和“重量感”。 5. **思路**: - 使用 **De-esser (去齿音器)** 或 **动态 EQ (Dynamic EQ)**。 - 设定阈,仅当 6kHz-8kHz 的能量超过阈值时才进行瞬间衰减。 - 这样在发元音时高频会被保留(不闷),只有发 S 音时会被压制(不刺)。 6. **场景差异**: - **大厅解说**:需要穿透力。**切除更多低频**(避免大厅混响导致浑浊),**提升 3kHz-4kHz**(确保在嘈杂环境中清晰可辨)。 - **手机哄睡**:需要亲密感(ASMR 倾向)。**保留更多中低频 (150Hz-300Hz)**(营造在耳边低语的肉感/温暖感),**极力压制 3kHz-5kHz**(避免刺耳惊醒用户),大幅提升 **12kHz+ 空气感**(呼吸声)。

8. 常见陷阱与错误 (Gotchas)

🔴 陷阱 1:单轨独奏陷阱 (Solo Trap)

🔴 陷阱 2:过度“手术” (Over-Surgical EQ)

🔴 陷阱 3:忽略播放设备

🔴 阱 4:数据至上主义