voice_design_tutorial

第 3 章 · 角色人设与声优画像

1. 开篇：从“纸片人”到“声学实体”

在构建数字人或虚拟角色的过程中，我们经常听到这样的反馈：“这个声音听起来不对。”

究竟什么是“对”的声音？是音频采样率够高？是录音室底噪够小？还是咬字字正腔圆？通常都不是。听众口中的“不对”，往往是指声音与角色灵魂的断裂（Disconnect）。

一个满身重甲的巨汉如果声音轻飘飘像个少年，即使音质再好也是失败的设计；一个设定为几千岁神明的角色如果说话语气像个刚毕业的大学生，瞬间就会破坏沉浸感。

本章的目标是建立一套系统的“翻译机制”。我们将不再满足于“御音”、“大叔音”这种模糊的标签，而是要学习如何将角色的生理特征、社会背景和心理状态，精确地拆解为音色（Timbre）、韵律（Prosody）和声学特征（Acoustic Features）。

这将是你作为声音设计师，向 AI 算法工程师、配音导演或后期调音师交付的最重要的“施工图纸”。

2. 声音设计的核心逻辑：三层转化模型

要实现精准的声音设计，我们需要在脑海中建立一个三层转化模型：

+--------------------------+       +--------------------------+       +--------------------------+
|  Layer 1: 设定层 (Input)  |       |  Layer 2: 感知层 (Design)|       |  Layer 3: 物理层 (Tech)  |
|  (策划/编剧/美术)         | ----> |  (声音设计师/导演)       | ----> |  (调音师/算法工程师)     |
+--------------------------+       +--------------------------+       +--------------------------+
|  WHO IS IT?              |       |  WHAT DOES IT SOUND LIKE?|       |  WHICH PARAMETERS?       |
|                          |       |                          |       |                          |
|  - 生理: 年龄/体型/种族  |       |  - 音色: 厚度/亮度/颗粒  |       |  - 基频 (F0) / 共振峰    |
|  - 社会: 阶级/职业/方言  |       |  - 演绎: 语速/语调/重音  |       |  - 频响曲线 (EQ)         |
|  - 心理: 性格/情绪/创伤  |       |  - 质感: 气声/鼻音/喉音  |       |  - 动态范围 (DR) / 瞬态  |
+--------------------------+       +--------------------------+       +--------------------------+

本章重点解决 Layer 1 到 Layer 2 的转化，并为 Layer 3 提供指导方向。

3. 维度拆解：角色画像的三维坐标系

如果你只告诉调音师“我要一个酷一点的声音”，你大概率会得到一个错误的 demo。我们需要从以下三个维度“解剖”角色：

3.1 生理维度 (Physiology) —— 决定声音的“硬件底色”

生理条件决定声带的长度、胸腔的大小，从而决定了声音的基频和共鸣。

体型与共鸣腔：
- 巨型/强壮：大胸腔 = 强胸腔共鸣。声音通常厚实、低沉，低频（100Hz-200Hz）能量饱满。
- 纤细/幼小：小共鸣腔 = 头腔共鸣为主。声音轻盈、透亮，高频泛音丰富。
年龄感（注意：生理年龄 vs 听感年龄）：
- 幼年：声带短且薄，基频（Pitch）高，咬字可能因口腔肌肉发育未全而显得含糊（“大舌头”）。
- 老年：声带肌肉松弛，可能出现“抖动”或气息不足，高频听力损失导致发音时高频过量（代偿性大声）。
特殊种族特征：
- 机械/赛博格：可能拥有完美的定频（无颤音），或者特定的金属共振（梳状滤波效果）。
- 兽人/怪物：可能包含非人类的喉音（Growl）或次声波成分。

Rule of Thumb (经验法则)：体型越大，基频低，共振峰频率越低。如果你在做一个“看似萝莉实则龙族”的角色，可以尝试保留高基频（音高），但人为增强一点低频共鸣（胸腔感），制造“龙威”。

3.2 社会维度 (Sociology) —— 决定声音的“面具”

社会背景决定了角色说话的方式、用词和口音。

阶级与教养：
- 贵族/上位者：通常语速适中偏慢（不急于表达），咬字极其清晰（Articulation），语调起伏受控（情绪稳定）。
- 底层/市井：语速可能极快（急于争取话语权），吞音严重，使用大量俚语，动态范围极大（大喊大叫）。
职业习惯：
- 战士/军人：核心收紧，中气十足，发音短促有力（Staccato），为了在嘈杂战场传达信息。
- 学者/谋士：声音松弛，连音多（Legato），尾音可能带有思考性的拖长。
- 刺客/潜行者：压低音量，气声比例高（Whispery），少高频齿音以避免暴露。

3.3 心理维度 (Psychology) —— 决定声音的“动态变化”

性格决定了声音的情感基调和变化幅度。

外向 (Extrovert) vs. 内向 (Introvert)：
- 外向：音量大，语调上扬，占据更宽的频谱空间。
- 内向：音量收敛，语尾下沉（Falling intonation），声音仿佛“含在嘴里”。
情绪稳定性：
- 傲娇/易怒：动态范围极大，上一秒冷静，下一秒爆鸣（需要很好的压缩器设置）。
- 三无/冷漠：动态范围极小，语调如死水微澜（单调），类似 AI 的平直感。
特殊心理状态：
- 病娇：极度温柔的气声（近距离感）与突兀的失真喊叫（恐惧感）的快速切换。
- 自信/自负：鼻音的使用。适度的鼻音显得高傲（Looking down on someone）。

4. 输出：建立标准化的《声线设计画像卡》

不要写散文，要填表格。以下是一份标准的声线设计画像模板，用于连接策划与音频团队。

4.1 模板示例

维度	参数项	填写说明与示例（以“高冷女刺客”为例）	对应的调音/声学暗示
01 音色质感	冷暖色调	偏冷（如金属、冰块）	减少 200Hz-400Hz 的“温暖包围感”，提升 4kHz 附近的冷峻感。
	颗粒感/沙哑度	微颗粒（像丝绸划过刀刃）	不要是完全纯净的正弦波，高频需要一点点“沙沙”的质感。
	气声比例	中高（40%-50%）	贴耳感强，仿佛在耳边低语，需要近讲效应。
02 演绎方式	共鸣位置	口腔前部 + 鼻腔少许	避免胸腔共鸣过重显得太“大妈”，也不要头腔太重显得太“傻白甜”。
	语速 (BPM)	中等偏快，干净利落	剪辑时切除所有犹豫的停顿和呼吸空隙。
	语调曲线	平直偏降	尾不上扬，陈述句为主，不反问。
03 关键特征	辨识度标签	“没有感情的杀手”	即使在激烈的动作戏中，呼吸依然保持平稳，不喘粗气。
	参考对标	《原神》罗莎莉亚 / 《尼尔》2B	参考其沉稳与冷淡的结合。

4.2 关键声学形容词对照表 (Translator)

为了避免沟通误差，请使用以下对照表：

“清亮 / 通透” → 提升高频 (Air/Presence)，减少中低频浑浊 (Mud)。
“厚实 / 磁性” → 增强低频基音区 (100-200Hz)，保留胸腔共鸣。
“温暖 / 亲切” → 丰富的中低频 (Low Mids)，削弱尖锐的高频齿音。
“电话音 / 广播感” → 极端的带通滤波 (Band Pass)，切除高低两端。
“贴脸感 / ASMR” → 极近距离录制，保留所有唇齿细节，强压缩，提升极高频空气感。

5. 竞品拆解：米哈游《原神》的声音设计美学

《原神》之所以视为行业标杆，在于其角色声音具有极高的“视听一致性”与“功能性区分”。

案例 A：钟离 (Zhongli) —— 秩序与历史的沉淀

视觉：岩神、西装（现代秩序）、龙（古老力量）、褐色/金色主调。
声音设计拆解：
- 音色：Bass/Baritone（男低音）。极强的胸腔共鸣，带来“岩石般”的稳固感和安全感。
- 演绎：语速恒定。无论说什么，节奏几乎不变，体现“契约”的不可动摇。咬字极重，每一个字都像刻在石头上。
- 频谱特征：低频极度饱满但干净，中高频只有清晰的咬字，没有多余的“毛刺”或高频噪声，听感极其顺滑（Smooth）。

案例 B：派蒙 (Paimon) —— 引导者与吉祥物

视觉：漂浮、体型小、白色/星空色、表情夸张。
声音设计拆解：
- 音色：极高频的幼女音。人为挤压声带，提高基频。
- 功能性：作为“向导”和“嘴替”，她的声音必须在复杂的环境音效和BGM中穿透出来。
- 频谱特征：能量集中在 1kHz-4kHz（人耳最敏感区域）。这也是为什么有些玩家觉得“吵”的原因——为了功能性牺牲了耐听度。
- 反差设计：在特定剧情（如生气、起绰号）时，会突然降低音调吐槽，这种 Gap 增加了角色的活泼感。

案例 C：魈 (Xiao) —— 业障与少年

视觉：少年体型、面具、青色、痛苦的神情。
声音设计拆解：
- 音色：少年音（基频较高），但带有明显的嘶哑和颗粒感。
- 隐喻：这种“沙哑”暗示了体内积压的“业障”和长年的痛苦喊叫。
- 演绎：经常使用“气泡音（Vocal Fry）”起头，表现疲惫感；战斗时却极具爆发力，形成反差。

6. 本章小结

翻译是关键：声音设计的第一步不是打 DAW 调 EQ，而是把策划文档翻译成声学目标。
生理决定下限，心理决定上限：体型定基调，性格定语调。
不要忽视“社会面具”：角色的说话方式（咬字、语速、口音）比单纯的音色更能体现角色的社会地位。
建立文档：每一个数字人角色都应拥有一张《声线画像卡》，作为后续 TTS 训练或真人配音的最高准则。

7. 练习题

基础题

Q1: “御姐音”和“少女音”在声学特征（基频、共鸣）上通常有什么主要区别？

点击查看提示与参考

* **Hint**: 关注年龄带来的声带变化和发声习惯。 * **参考**: * **御姐音**：基频（F0）相对较低（约 200Hz-250Hz），胸腔共鸣较多，发音位置靠后，动态稳重，语速通常不快。 * **少女音**：基频相对较高（约 250Hz-350Hz+），头腔/口腔共鸣为主，发音位置靠前（甚至靠鼻腔），态跳跃，语速通常较快。

Q2: 为什么反派角色（Villain）的声音通常被设计得带有“磁性”或“沙哑”？从频谱角度如何解释？

点击查看提示与参考

* **Hint**: 完美的声音通常代表正义/纯洁；杂质代表复杂/邪恶。 * **参考**: “沙哑”在频谱上表现为非周期性的噪声成分或次谐波。这种“不完美”的纹理暗示了角色的经历复杂、受过伤或内心阴暗。同时，低沉的磁性（丰富的低频谐波）能带来压迫感和控制力。

Q3: 试着为《西游记》中的孙悟空设计一个数字人声线画像（仅填写关键特征）。

点击查看提示与参考

* **Hint**: 猴子的生理特征 + 强者的性格。 * **参考**: * **音色**：高亢、尖细（Tenor/Countertenor），带有类猿猴的喉音。 * **演绎**：语速极快，跳跃性强，句尾常上扬（轻挑）。 * **特殊**：在念咒或发怒时，加入低频咆哮的失真层（兽性）。

挑战题 (开放思考)

Q4: 逆向工程题：请找一段你认为非常有辨识度的 AI 语音（如 Siri、Moss 或某个游戏角色），分析其为了达到“非人感”或“特定人设”做了哪些非自然的处理？

点击查看提示与参考

* **Hint**: 听呼吸声、听语调的平滑度、听句尾的处理。 * **参考思路**：以 Moss（流浪地球）为例。 * **处理**：极度平稳的动态（压缩器压得很死），没有任何换气声（去呼吸），语调曲线近乎数学般的完美正弦波，没有人类的情绪抖动。 * **效果**：营造出一种绝对理性、甚至冷酷的观察者视角。

Q5: 如果你要为一个“外表是12岁小女孩，实际上是操控整个城市的幕后黑手（心理年龄50岁+）”的角色设计声线，你会怎么做？（考察反差设计）

点击查看提示与参考

* **Hint**: 不要改变生理基频，改变说话的**逻辑**和**韵律**。 * **参考**： * **保留**：清脆的童声音色（生理限制）。 * **改变**：使用成年人的降调语气（通常小孩子语调上扬，她要下沉）。使用极其复杂的词汇和长难句。语速极慢，带有掌控全局的从容。 * **调音Trick**：可以在其童声背后，极微弱地叠一层低八度的男低音（几乎听不见，但能感到潜意识的压迫），暗示其真实身份。

8. 常见陷阱与错误 (Gotchas)

陷阱 1：只看脸，不看腿（忽视整体生理架构）

错误：给一个身高2米的肌肉女战士配了一个娇滴滴的细嗓门。
问题：这违背了物理声学规律（大体积=大共鸣），除非是故意的搞笑设计，否则会产生严重的“出戏感”。
修正：即使想要女性化，也应该是“成熟、厚实的女中音”，而非“尖细的女高音”。

陷阱 2：所有人都在“播音腔”

错误：为了追求“好听”和“清晰”，要求所有角色的声音都像新闻联播主持人一样字正腔圆。
问题：导致角色同质化，失去了“活人”的粗糙感和性格特征。懒人就该吞音，急躁的人就该喷麦。
修正：完美是角色的敌人。有意识地保留甚至设计一些“瑕疵”（如口癖、换气声、特定的发音含糊）。

陷阱 3：TTS / AI 模型的“平均脸”效应

错误：直接使用通用的 AI 模型，不做微调。
问题：目前的 AI 模型大多基于海量数据训练，倾向于生成一种“平均的好听”声音，缺乏个性（Personality）。
修正：必须通过Prompt Engineering（提示工程）或Style Transfer（风格迁移），强制加入非标准的特征（如：“有点感冒的声音”、“刚睡醒的声音”）。

陷 4：忽视播放终端

错误：在专业的监听音箱上调出了完美的低音，结果用户在手机外放上完全听不见（手机无法重放 200Hz 以下的声音）。
修正：Rule of Thumb——角色的核心辨识度频段应集中在 500Hz - 4kHz 之间，这是所有设备都能播放的区域。不要把角色的灵魂寄托在超低音上。