第 3 章 · 角色人设与声优画像
1. 开篇:从“纸片人”到“声学实体”
在构建数字人或虚拟角色的过程中,我们经常听到这样的反馈:“这个声音听起来不对。”
究竟什么是“对”的声音?是音频采样率够高?是录音室底噪够小?还是咬字字正腔圆?通常都不是。听众口中的“不对”,往往是指声音与角色灵魂的断裂(Disconnect)。
一个满身重甲的巨汉如果声音轻飘飘像个少年,即使音质再好也是失败的设计;一个设定为几千岁神明的角色如果说话语气像个刚毕业的大学生,瞬间就会破坏沉浸感。
本章的目标是建立一套系统的“翻译机制”。我们将不再满足于“御音”、“大叔音”这种模糊的标签,而是要学习如何将角色的生理特征、社会背景和心理状态,精确地拆解为音色(Timbre)、韵律(Prosody)和声学特征(Acoustic Features)。
这将是你作为声音设计师,向 AI 算法工程师、配音导演或后期调音师交付的最重要的“施工图纸”。
2. 声音设计的核心逻辑:三层转化模型
要实现精准的声音设计,我们需要在脑海中建立一个三层转化模型:
+--------------------------+ +--------------------------+ +--------------------------+
| Layer 1: 设定层 (Input) | | Layer 2: 感知层 (Design)| | Layer 3: 物理层 (Tech) |
| (策划/编剧/美术) | ----> | (声音设计师/导演) | ----> | (调音师/算法工程师) |
+--------------------------+ +--------------------------+ +--------------------------+
| WHO IS IT? | | WHAT DOES IT SOUND LIKE?| | WHICH PARAMETERS? |
| | | | | |
| - 生理: 年龄/体型/种族 | | - 音色: 厚度/亮度/颗粒 | | - 基频 (F0) / 共振峰 |
| - 社会: 阶级/职业/方言 | | - 演绎: 语速/语调/重音 | | - 频响曲线 (EQ) |
| - 心理: 性格/情绪/创伤 | | - 质感: 气声/鼻音/喉音 | | - 动态范围 (DR) / 瞬态 |
+--------------------------+ +--------------------------+ +--------------------------+
本章重点解决 Layer 1 到 Layer 2 的转化,并为 Layer 3 提供指导方向。
3. 维度拆解:角色画像的三维坐标系
如果你只告诉调音师“我要一个酷一点的声音”,你大概率会得到一个错误的 demo。我们需要从以下三个维度“解剖”角色:
3.1 生理维度 (Physiology) —— 决定声音的“硬件底色”
生理条件决定声带的长度、胸腔的大小,从而决定了声音的基频和共鸣。
- 体型与共鸣腔:
- 巨型/强壮:大胸腔 = 强胸腔共鸣。声音通常厚实、低沉,低频(100Hz-200Hz)能量饱满。
- 纤细/幼小:小共鸣腔 = 头腔共鸣为主。声音轻盈、透亮,高频泛音丰富。
- 年龄感(注意:生理年龄 vs 听感年龄):
- 幼年:声带短且薄,基频(Pitch)高,咬字可能因口腔肌肉发育未全而显得含糊(“大舌头”)。
- 老年:声带肌肉松弛,可能出现“抖动”或气息不足,高频听力损失导致发音时高频过量(代偿性大声)。
- 特殊种族特征:
- 机械/赛博格:可能拥有完美的定频(无颤音),或者特定的金属共振(梳状滤波效果)。
- 兽人/怪物:可能包含非人类的喉音(Growl)或次声波成分。
Rule of Thumb (经验法则):
体型越大,基频低,共振峰频率越低。如果你在做一个“看似萝莉实则龙族”的角色,可以尝试保留高基频(音高),但人为增强一点低频共鸣(胸腔感),制造“龙威”。
3.2 社会维度 (Sociology) —— 决定声音的“面具”
社会背景决定了角色说话的方式、用词和口音。
- 阶级与教养:
- 贵族/上位者:通常语速适中偏慢(不急于表达),咬字极其清晰(Articulation),语调起伏受控(情绪稳定)。
- 底层/市井:语速可能极快(急于争取话语权),吞音严重,使用大量俚语,动态范围极大(大喊大叫)。
- 职业习惯:
- 战士/军人:核心收紧,中气十足,发音短促有力(Staccato),为了在嘈杂战场传达信息。
- 学者/谋士:声音松弛,连音多(Legato),尾音可能带有思考性的拖长。
- 刺客/潜行者:压低音量,气声比例高(Whispery),少高频齿音以避免暴露。
3.3 心理维度 (Psychology) —— 决定声音的“动态变化”
性格决定了声音的情感基调和变化幅度。
- 外向 (Extrovert) vs. 内向 (Introvert):
- 外向:音量大,语调上扬,占据更宽的频谱空间。
- 内向:音量收敛,语尾下沉(Falling intonation),声音仿佛“含在嘴里”。
- 情绪稳定性:
- 傲娇/易怒:动态范围极大,上一秒冷静,下一秒爆鸣(需要很好的压缩器设置)。
- 三无/冷漠:动态范围极小,语调如死水微澜(单调),类似 AI 的平直感。
- 特殊心理状态:
- 病娇:极度温柔的气声(近距离感)与突兀的失真喊叫(恐惧感)的快速切换。
- 自信/自负:鼻音的使用。适度的鼻音显得高傲(Looking down on someone)。
4. 输出:建立标准化的《声线设计画像卡》
不要写散文,要填表格。以下是一份标准的声线设计画像模板,用于连接策划与音频团队。
4.1 模板示例
| 维度 |
参数项 |
填写说明与示例(以“高冷女刺客”为例) |
对应的调音/声学暗示 |
| 01 音色质感 |
冷暖色调 |
偏冷(如金属、冰块) |
减少 200Hz-400Hz 的“温暖包围感”,提升 4kHz 附近的冷峻感。 |
| |
颗粒感/沙哑度 |
微颗粒(像丝绸划过刀刃) |
不要是完全纯净的正弦波,高频需要一点点“沙沙”的质感。 |
| |
气声比例 |
中高(40%-50%) |
贴耳感强,仿佛在耳边低语,需要近讲效应。 |
| 02 演绎方式 |
共鸣位置 |
口腔前部 + 鼻腔少许 |
避免胸腔共鸣过重显得太“大妈”,也不要头腔太重显得太“傻白甜”。 |
| |
语速 (BPM) |
中等偏快,干净利落 |
剪辑时切除所有犹豫的停顿和呼吸空隙。 |
| |
语调曲线 |
平直偏降 |
尾不上扬,陈述句为主,不反问。 |
| 03 关键特征 |
辨识度标签 |
“没有感情的杀手” |
即使在激烈的动作戏中,呼吸依然保持平稳,不喘粗气。 |
| |
参考对标 |
《原神》罗莎莉亚 / 《尼尔》2B |
参考其沉稳与冷淡的结合。 |
4.2 关键声学形容词对照表 (Translator)
为了避免沟通误差,请使用以下对照表:
- “清亮 / 通透” → 提升高频 (Air/Presence),减少中低频浑浊 (Mud)。
- “厚实 / 磁性” → 增强低频基音区 (100-200Hz),保留胸腔共鸣。
- “温暖 / 亲切” → 丰富的中低频 (Low Mids),削弱尖锐的高频齿音。
- “电话音 / 广播感” → 极端的带通滤波 (Band Pass),切除高低两端。
- “贴脸感 / ASMR” → 极近距离录制,保留所有唇齿细节,强压缩,提升极高频空气感。
5. 竞品拆解:米哈游《原神》的声音设计美学
《原神》之所以视为行业标杆,在于其角色声音具有极高的“视听一致性”与“功能性区分”。
案例 A:钟离 (Zhongli) —— 秩序与历史的沉淀
- 视觉:岩神、西装(现代秩序)、龙(古老力量)、褐色/金色主调。
- 声音设计拆解:
- 音色:Bass/Baritone(男低音)。极强的胸腔共鸣,带来“岩石般”的稳固感和安全感。
- 演绎:语速恒定。无论说什么,节奏几乎不变,体现“契约”的不可动摇。咬字极重,每一个字都像刻在石头上。
- 频谱特征:低频极度饱满但干净,中高频只有清晰的咬字,没有多余的“毛刺”或高频噪声,听感极其顺滑(Smooth)。
案例 B:派蒙 (Paimon) —— 引导者与吉祥物
- 视觉:漂浮、体型小、白色/星空色、表情夸张。
- 声音设计拆解:
- 音色:极高频的幼女音。人为挤压声带,提高基频。
- 功能性:作为“向导”和“嘴替”,她的声音必须在复杂的环境音效和BGM中穿透出来。
- 频谱特征:能量集中在 1kHz-4kHz(人耳最敏感区域)。这也是为什么有些玩家觉得“吵”的原因——为了功能性牺牲了耐听度。
- 反差设计:在特定剧情(如生气、起绰号)时,会突然降低音调吐槽,这种 Gap 增加了角色的活泼感。
案例 C:魈 (Xiao) —— 业障与少年
- 视觉:少年体型、面具、青色、痛苦的神情。
- 声音设计拆解:
- 音色:少年音(基频较高),但带有明显的嘶哑和颗粒感。
- 隐喻:这种“沙哑”暗示了体内积压的“业障”和长年的痛苦喊叫。
- 演绎:经常使用“气泡音(Vocal Fry)”起头,表现疲惫感;战斗时却极具爆发力,形成反差。
6. 本章小结
- 翻译是关键:声音设计的第一步不是打 DAW 调 EQ,而是把策划文档翻译成声学目标。
- 生理决定下限,心理决定上限:体型定基调,性格定语调。
- 不要忽视“社会面具”:角色的说话方式(咬字、语速、口音)比单纯的音色更能体现角色的社会地位。
- 建立文档:每一个数字人角色都应拥有一张《声线画像卡》,作为后续 TTS 训练或真人配音的最高准则。
7. 练习题
基础题
Q1: “御姐音”和“少女音”在声学特征(基频、共鸣)上通常有什么主要区别?
点击查看提示与参考
* **Hint**: 关注年龄带来的声带变化和发声习惯。
* **参考**:
* **御姐音**:基频(F0)相对较低(约 200Hz-250Hz),胸腔共鸣较多,发音位置靠后,动态稳重,语速通常不快。
* **少女音**:基频相对较高(约 250Hz-350Hz+),头腔/口腔共鸣为主,发音位置靠前(甚至靠鼻腔),态跳跃,语速通常较快。
Q2: 为什么反派角色(Villain)的声音通常被设计得带有“磁性”或“沙哑”?从频谱角度如何解释?
点击查看提示与参考
* **Hint**: 完美的声音通常代表正义/纯洁;杂质代表复杂/邪恶。
* **参考**: “沙哑”在频谱上表现为非周期性的噪声成分或次谐波。这种“不完美”的纹理暗示了角色的经历复杂、受过伤或内心阴暗。同时,低沉的磁性(丰富的低频谐波)能带来压迫感和控制力。
Q3: 试着为《西游记》中的孙悟空设计一个数字人声线画像(仅填写关键特征)。
点击查看提示与参考
* **Hint**: 猴子的生理特征 + 强者的性格。
* **参考**:
* **音色**:高亢、尖细(Tenor/Countertenor),带有类猿猴的喉音。
* **演绎**:语速极快,跳跃性强,句尾常上扬(轻挑)。
* **特殊**:在念咒或发怒时,加入低频咆哮的失真层(兽性)。
挑战题 (开放思考)
Q4: 逆向工程题:请找一段你认为非常有辨识度的 AI 语音(如 Siri、Moss 或某个游戏角色),分析其为了达到“非人感”或“特定人设”做了哪些非自然的处理?
点击查看提示与参考
* **Hint**: 听呼吸声、听语调的平滑度、听句尾的处理。
* **参考思路**:以 Moss(流浪地球)为例。
* **处理**:极度平稳的动态(压缩器压得很死),没有任何换气声(去呼吸),语调曲线近乎数学般的完美正弦波,没有人类的情绪抖动。
* **效果**:营造出一种绝对理性、甚至冷酷的观察者视角。
Q5: 如果你要为一个“外表是12岁小女孩,实际上是操控整个城市的幕后黑手(心理年龄50岁+)”的角色设计声线,你会怎么做?(考察反差设计)
点击查看提示与参考
* **Hint**: 不要改变生理基频,改变说话的**逻辑**和**韵律**。
* **参考**:
* **保留**:清脆的童声音色(生理限制)。
* **改变**:使用成年人的降调语气(通常小孩子语调上扬,她要下沉)。使用极其复杂的词汇和长难句。语速极慢,带有掌控全局的从容。
* **调音Trick**:可以在其童声背后,极微弱地叠一层低八度的男低音(几乎听不见,但能感到潜意识的压迫),暗示其真实身份。
8. 常见陷阱与错误 (Gotchas)
陷阱 1:只看脸,不看腿(忽视整体生理架构)
- 错误:给一个身高2米的肌肉女战士配了一个娇滴滴的细嗓门。
- 问题:这违背了物理声学规律(大体积=大共鸣),除非是故意的搞笑设计,否则会产生严重的“出戏感”。
- 修正:即使想要女性化,也应该是“成熟、厚实的女中音”,而非“尖细的女高音”。
陷阱 2:所有人都在“播音腔”
- 错误:为了追求“好听”和“清晰”,要求所有角色的声音都像新闻联播主持人一样字正腔圆。
- 问题:导致角色同质化,失去了“活人”的粗糙感和性格特征。懒人就该吞音,急躁的人就该喷麦。
- 修正:完美是角色的敌人。有意识地保留甚至设计一些“瑕疵”(如口癖、换气声、特定的发音含糊)。
陷阱 3:TTS / AI 模型的“平均脸”效应
- 错误:直接使用通用的 AI 模型,不做微调。
- 问题:目前的 AI 模型大多基于海量数据训练,倾向于生成一种“平均的好听”声音,缺乏个性(Personality)。
- 修正:必须通过Prompt Engineering(提示工程)或Style Transfer(风格迁移),强制加入非标准的特征(如:“有点感冒的声音”、“刚睡醒的声音”)。
陷 4:忽视播放终端
- 错误:在专业的监听音箱上调出了完美的低音,结果用户在手机外放上完全听不见(手机无法重放 200Hz 以下的声音)。
- 修正:Rule of Thumb——角色的核心辨识度频段应集中在 500Hz - 4kHz 之间,这是所有设备都能播放的区域。不要把角色的灵魂寄托在超低音上。