voice_design_tutorial

第 8 章 · 竞品分析：以《原神》为代表的角色声音设计

1. 开篇：从“好听”到“精准的声学画像”

在数字人与虚拟角色的声音设计领域，米哈游的《原神》（Genshin Impact）不仅仅是一个游戏案例，它实际上维护着目前行业内最庞大、风格最统一的“角色声线数据库”。

当我们说某个数字人“听起来要有《原神》那种感觉”时，我们实际上是在追求一种高度工业化的联觉（Synesthesia）体验——即视觉元素（颜色、体型、属性）与听觉元素（频率、动态、演绎）的完美对齐。

本章将带你进行一次声学逆向工程”。我们不谈玄学，而是通过频谱分析、动态范围测量和共振峰观察，将那些模糊的“性格标签”转化为可复用的声学参数。我们将重点解决以下问题：

元素与频率的映射：为什么“岩元素”听起来厚重，“雷元素”听起来尖锐？
同类差异化：同样是成熟女性（御姐），为什么“凝光”与“丽莎”的频谱形态截然不同？
跨语言美学：中配（CN）的“写实感”与日配（JP）的“符号感”在混音上是如何取舍的？

2. 分析方法论：声线逆向工程三棱镜

要深度拆解一个竞品角色，我们需要通过三个维度进行“切片”：

静态音色 (Timbre/Spectrum)：
- 分析工具：频谱分析仪 (Spectrum Analyzer)
- 关注点：基频 (F0) 位置、共振峰 (Formant) 偏移、能量分布 (EQ Curve)。
动态演绎 (Dynamics/Prosody)：
- 分析工具：波形监视器 (Waveform)、响度表
- 关注点：语速 (BPM)、音高起伏范围 (Pitch Range)、气息比例 (Breathiness)。
空间与润色 (Space & Polish)：
- 分析工具：耳朵 + 效果链推测
- 关注点：混响类型 (Reverb Type)、压缩感 (Compression)、齿音处理 (De-essing)。

3. 深度案例拆解：典型元素与声线 Archetype

3.1 【岩元素/权威型】—— 极致的稳定与低频支撑

代表角色：钟离 (Zhongli) 声线设计目标：历史感、绝对安全感、神性

A. 频谱与EQ策略分析

钟离的声音之所以“听着贵”，核心在于对中低频 (Low-Mids) 的精密雕刻。

基频区 (80Hz - 120Hz)：这是男性声音的根基。钟离的混音在此处保持了极高的能量密度，且几乎没有大幅波动，营造出“不动如山”的感觉。
胸腔共鸣 (150Hz - 250Hz)：这是“磁性”的来源。普通男声如果这个频段过多会显得“闷/浑浊”，但在钟离的设计中，这个频段被保留并稍作饱和处理 (Saturation)，听起来像厚实的大提琴。
鼻音切除 (500Hz - 800Hz)：为了避免“像真人般的油腻感”或“感冒感”，这个频段被做了较宽的衰减 (Dip)。这制造了一种“神性的距离感”。
高频细节 (3kHz - 5kHz)：虽然声音低沉，但字音极度清晰。这依赖于在此频段的适度提升，保留了唇齿接触的质感，像“金石撞击”。

B. 动态与演绎逻辑

极低动态范围：甚至在战斗语音中，钟离的音量差别也不大。调音师使用了较重的压缩 (Compression)（如 Ratio 4:1, Fast Attack），将声音“压”成一块整砖，消除任何不稳定的抖动。
语速与停顿：语速极慢（约 3-4 字/秒）。关键在于“句尾下沉”，每个句子的最后一个字音调必定下压，绝不上扬，彻底消灭“疑问”或“轻浮”的情绪。

ASCII 频谱轮廓 (Target Curve)：

能量 (dB)
+10 |      [====] (150-200Hz: 磁性核心/胸腔)
 +5 |     /      \                        _ [==] (4kHz: 质感/清晰度)
  0 |____/        \                      /
 -5 |              \                    /
-10 |               \______[====]______/
                      (600Hz: 挖空/去油腻)
    |___________________________________________________
      100    200    500    1k     2k     5k     10k  (Hz)

3.2 【雷元素/高冷型】—— 瞬态锋利与中高频穿透

代表角色：雷电将军 (Raiden Shogun) 声线设计目标：威严、锋利、无机质感、压迫力

A. 频谱与EQ策略分析

与岩元素的“包围感”不同，雷元素的声音设计强调“穿透力”与“边缘感”。

低频滚降 (Low Cut @ 150Hz)：为了体现女性的冷冽，刻意削弱了温暖的低频包围感。声音听起来不“暖”，而是“凉”。
核心存在感 (Presence @ 2kHz - 4kHz)：这是人耳对“响度”最敏感的区域。雷电将军的声线在此处有显著提升，使得她的声音即便音量不大，也能像刀片一样切开背景音乐 (Cut through the mix)。
超高频空气感 (10kHz+)：适度保留，但不是为了“甜美”，而是为了展现“电流”般的滋滋声和细腻度。

B. 动态与演绎逻辑

瞬态 (Transient) 保留：不同于钟离的平滑，雷电将军的辅音（如 k, t, p, ch）发音非常重且短促。在处理时，Attack 时间设置较慢（让瞬态通过），强调一种“斩击感”。
无机质感：在某些语音（尤其是“人偶”状态）下，会微量混入Doubler（倍增效果）或极短的Slap Delay，制造一种微妙的“非人感”或“金属回声”。

3.3 【火元素/元气型】—— 共振峰偏移与高频泛音

代表角色：胡桃 (Hu Tao) / 宵宫 (Yoimiya) 声线设计目标：明亮、跳跃、亲近、少女感

A. 频谱与EQ策略分析

共振峰 (Formant) 上移：这是“少女感”的关键。通过 DSP 技术或声优技巧，将共振峰整体向上平移（Shift +1 semitone 左右），模拟更短的声带和口腔，声音听起来更“幼”且“亮”。
齿音控制 (De-essing)：由于元气角色语速快、高频多，极易产生刺耳齿音。这里的处理难点在于：既要消除刺耳的“嘶嘶”声，又不能让声音变“大舌头”。通常使用多段动态压缩 (Multi-band Compression) 仅压制 7kHz-9kHz 的尖峰。
空气感 (Air Band @ 12kHz+)：大幅提升。这给声音加上了一层“光泽”，对应火元素的“燃烧”与“光明”。

B. 动态与演绎逻辑

极高 Pitch Range：如果你看波形图的 Pitch 曲线，会发现元气角色的曲线像过山车。这种大幅度的抑扬顿挫是设计重点。
气声运用：与御姐的“魅惑气声”不同，元气少女的气声通常用在句尾的叹息或笑声中，短促而有（Exhale），表现活力耗尽后的瞬间放松。

4. 同类对比：差之毫厘，谬以千里

在设计数字人时，最难的不是区分男女，而是区分“同一种类下的不同性格”。以下对比极其关键：

对比组：【成熟女性】凝光 vs. 丽莎

凝光 (权贵/正式)：
- 关键词：实体感、端庄
- 声学特征：中频 (1kHz) 较实，气声极少。发音位置靠前（口腔前部），颗粒感强。
- 应用场景：新闻播报、严肃客服数字人。
丽莎 (魔女/慵懒)：
- 关键词：空气感、松弛
- 声学特征：高频 (10kHz+) 占比极高，大量运用Breathiness (气声)。发音位置靠后（喉部/胸腔），字与字之间有粘连 (Legato)。
- 应用场景：情感陪伴、哄睡助眠数字人。

设计启示：如果你想要角色听起来“性感/温柔”，请增加 10kHz 以上的气声比例并使用软拐点压缩；如果你想要角色听起来“专业/干练”，请切除气声，突出 2-4kHz 的硬度。

5. 跨文化滤镜：CN vs JP 的混音哲学

在分析《原神》时，我们发现中配和日配代表了两种截然不同的审美，这对数字人“出海”至关重要。

特征维度	中配风格 (CN Style)	日配风格 (JP Style)
审美核心	写实主义 (Realism)	表现主义 (Expressionism)
听感参照	电视剧、电影、播音	动漫、舞台剧
低频处理	倾向保留 150Hz-300Hz 的肉感，声音较“厚”。	倾向大幅切除低频，声音较“薄”、“脆”。
共振峰	接近真人自然状态。	常进行人工偏移 (Shift)，夸大年龄特征（更幼或更老）。
混响 (Reverb)	极干 (Dry)，追求像是在你面前说话。	略湿，带有一定的空间染色，强调氛围。
适用场景	资讯播报、政务、写实交互。	虚拟像、游戏NPC、二次元陪伴。

Rule of Thumb：

国内项目：优先参考中配的 EQ 曲线，保持人声的“肉质感”和“亲切感”。
二次元/海外项目：优先参考日配，强调“符号化”特征（如极度的萌、极度的冷），不必过分追求像真人。

6. 频谱参数速查表 (Cheat Sheet)

为了方便大家直接应用，我们将形容词翻译为参数操作：

策划/美术描述	调音师/设计师操作指南 (Rule of Thumb)
“声音太飘了，要稳重”	提升 150Hz-250Hz (2-3dB)，增加压缩比 (Ratio > 3:1)，缩短 Release 时间。
“声音太闷了，不清亮”	衰减 400Hz-600Hz (Boxiness)，使用 High Shelf 提升 5kHz 以上。
“声音太刺耳，听久了累”	检查 3kHz-4kHz 是否过高，使用 De-esser 压制 7kHz-9kHz。
“要有电话里那种科技感”	使用 Band-pass Filter (带通滤波)，只保留 500Hz - 3kHz。
“要有大殿里的严感”	发送 15%-20% 到 Short Plate Reverb (板式混响)，预延时 (Pre-delay) 设为 20ms 以保留字头清晰度。

7. 本章小结

没有标准的“好声音”，只有“匹配的声线”：钟离的 EQ 曲线用到胡桃身上就是灾难。声线设计必须始于人设。
联觉是可以量化的：岩石=低频厚度，雷电=中高频瞬态，火焰=高频空气感与高动态。
细节决定质感：同为御姐，气声的多少决定了是“女王”还是“魔女”。
参考系选择：根据产品定位（写实 vs 二次元），选择模仿中配还是日配的混音风格。

8. 练习题

基础题 (50%)

听感映射：打开《原神》角色图鉴，分别听“魈 (Xiao)”和“温迪 (Venti)”的语音。
- 问题：虽然两者都是少年体型，但“魈”的声音听起来带有明显的“颗粒感”和“哑光感”，而“温迪”听起来“圆润”且“轻盈”。请猜测哪个角色在 2kHz-4kHz 的提升更多？哪一个角色的气声更多？
参数连线：
- A. 提升 100Hz-200Hz
- B. 切除 2000Hz 以下，切除 5000Hz 以上
- C. 提升 12kHz
- 1. 制造“对讲机/无线电”效果
- 1. 增加“空气感/华丽感”
- 1. 增加“胸腔共鸣/厚度”
判断题：为了让数字人声音听起来更清楚，我们应该无限制地提升高频，并切除所有低频。 (True/False)

点击查看基础题提示与答案

**答案与提示：** 1. **魈**在 2kHz-4kHz 提升更多（为了表现业障的痛苦和锋利感）；**温迪**的气声更多（表现风元素的轻盈）。 2. A-3, B-1, C-2。 3. **False**。无限制提升高频会刺耳，切除所有低频会让声音失去“根基”，变得像蚊子叫。清晰度来自于**平衡**。

挑战题 (50%)

逆向工程实战：录制或下载一段你认为符合“高冷女反派”的音频
- 使用 Audacity 或 RX 查看频谱图。
- 寻找她在“发怒”时和“冷笑”时的波形差异。
- 思考：如果你要用 TTS 合成这种声音，你应该把“语速”和“音高方差”参数设大还是设小？
设计题：水元素数字人：
- 假设你要设计一个代表“深海”的数字人（参考心海或那维莱特）。
- 你会如何处理 Reverb (混响)？是干一点好，还是湿一点好？混响的 Decay Time (衰减时间) 应该是长还是短？
故障诊断：某数字人项目，客户反馈“这个萝莉角色的声音听起来像个捏着鼻子的老太婆”。
- 从 共振峰 (Formant) 和 频响 (EQ) 两个角度分析，可能出了什么问题？

点击查看挑战题提示与答案

**答案思路：** 4. **思考**：高冷女反派通常语速较慢且稳定（低 BPM），但在发怒时音高方差会突然变大（爆发力）。但在“冷”时，通常是短促的气声。TTS 参数建议：默认语速偏慢，Pitch Variance 适中，但需要具备“重音标记”功能来模拟爆发。 5. **设计思路**：深海代表深邃、广阔。建议混响 **比常规角色略湿 (Wetter)**，使用 **Long Decay (长衰减)** 的 Hall Reverb，甚至去掉混响中的高频部分（模拟水下高频衰减快），制造深沉的包裹感。 6. **诊断**： * **共振峰**：可能过度使用了 Pitch Shift（变调）但没有调整 Formant，或者 Formant 调整过度导致失真（像捏鼻子）。 * **EQ**：可能保留了过多的 500Hz-1kHz（鼻音区），且 10kHz 以上的“少女空气感”缺失。

9. 常见陷阱与错误 (Gotchas)

🔴 陷阱 1：过度迷信“原神风”而忽略使用场景

错误：在手机端的交互式数字人中，完全照搬《原神》PC版的混音，保留了极大的动态范围。
后果：用户在嘈杂环境（地铁、甚至只有空调的房间）根本听不清数字人在说什么，因为小声的细节被环境音盖过了。
修正：平台决定动态。如果是移动端应用，必须进行更强力的压缩（Compression）和限制（Limiting），牺牲一部分细腻的动态，换取可懂度。

🔴 陷阱 2：把“齿音”当“清晰度”

错误：为了让声音听起来“高保真”和“清亮”，疯狂提升 6kHz-10kHz。
后果：每次角色说“是、吃、次、四”等字时，用户的耳朵都会被刺痛（Sibilance）。这在佩戴耳机时是灾难性的体验。
修正：清晰度的核心其实在 3kHz-4kHz。6kHz 以上要慎重，务必配合 De-esser 使用。

🔴 陷阱 3：所有角色共用一个 TTS 基底

错误：试图通过后期 EQ 把一个原本是“温柔阿姨”音色的 TTS 模型，强行调成“活泼萝莉”。
后果：EQ 只能修饰，不能换头。强行提升高频只会得到一个“尖的阿姨”，而不是萝莉。
修正：源头大于后期。前期选型（Voice Conversion 模型或 TTS 基底）的音色准确度占 80%，后期调音只能优化剩下的 20%。

< 第 7 章 · 声音美化调音流程

第 9 章 · 项目流程与多角色协作 >

voice_design_tutorial

第 8 章 · 竞品分析：以《原神》为代表的角色声音设计

1. 开篇：从“好听”到“精准的声学画像”

2. 分析方法论：声线逆向工程三棱镜

3. 深度案例拆解：典型元素与声线 Archetype

3.1 【岩元素/权威型】—— 极致的稳定与低频支撑

A. 频谱与EQ策略分析

B. 动态与演绎逻辑

3.2 【雷元素/高冷型】—— 瞬态锋利与中高频穿透

A. 频谱与EQ策略分析

B. 动态与演绎逻辑

3.3 【火元素/元气型】—— 共振峰偏移与高频泛音

A. 频谱与EQ策略分析

B. 动态与演绎逻辑

4. 同类对比：差之毫厘，谬以千里

对比组：【成熟女性】 凝光 vs. 丽莎

5. 跨文化滤镜：CN vs JP 的混音哲学

6. 频谱参数速查表 (Cheat Sheet)

7. 本章小结

8. 练习题

基础题 (50%)

挑战题 (50%)

9. 常见陷阱与错误 (Gotchas)

🔴 陷阱 1：过度迷信“原神风”而忽略使用场景

🔴 陷阱 2：把“齿音”当“清晰度”

🔴 陷阱 3：所有角色共用一个 TTS 基底

对比组：【成熟女性】凝光 vs. 丽莎