asr_sd_tutorial

ASR 与 Speaker Diarization 训练中文教程（多语种：中英及主要语种｜RNN → Conv+LSTM → MLLM）

文件组织：index.md + chapter1.md + chapter2.md + …
本 index.md 给出完整章节规划与每章小节清单（足够细到可直接按清单逐章写作/实现）。

阅读路线建议（按目标选一条）

ASR 训练主线（从零到可用）：Chapter 1 → 2 → 3 → 4 → 5 → 6 → 7/8/9 → 12 → 13 → 14 → 18
Diarization 主线（会议/多说话人）：Chapter 1 → 2 → 4/5 → 10 → 11 → 13 → 14 → 18
多语种/混语重点：Chapter 3 → 4 → 12 → 13（再回看 7/8/9/16/17）
MLLM 时代（ASR/说话人/上下文增强）：Chapter 16 → 17 → 13 → 18（必要时补齐 4/12）

仓库结构（规划）

index.md
chapter1.md … chapter21.md
（可选）assets/（示例音频、图、表、配置片段）
（可选）recipes/（训练脚本与配置模板：ESPnet/NeMo/SpeechBrain/WeNet/FunASR/pyannote 等）
（可选）tools/（TN/ITN、OpenCC、对齐切分、评测脚本、数据检查器）

章节目录与详细小节清单

Chapter 1（`chapter1.md`）任务全景：ASR 与 Diarization 的训练对象、边界与通用流水线

1.1 本教程覆盖范围：ASR / Diarization / SA-ASR（Speaker-Attributed ASR）/ AST（语音翻译）
1.2 “训练一个系统”到底包含什么：数据→建模→解码→后处理→评测→回归
1.3 多语种场景定义
- 1.3.1 单语、跨语迁移、多语联合、code-switch（混语）
- 1.3.2 多脚本（Latin/CJK/阿拉伯/天城文等）与混脚本
1.4 Diarization 任务拆解
- 1.4.1 SAD/VAD、Speaker embedding、聚类/分割、重分割/重对齐
- 1.4.2 Overlap（重叠语音）与多通道会议的特殊性
1.5 典型产品形态与约束
- 1.5.1 离线高精度 vs 流式低延迟
- 1.5.2 隐私/合规（PII）与数据闭环
1.6 贯穿全书的“可复现”实骨架（目录约定、命名、日志、指标）

Chapter 2（`chapter2.md`）工程与实验基线：环境、框架、分布式与可复现

2.1 训练/推理硬件与瓶颈：GPU/CPU/IO/显存/吞吐
2.2 深度学习栈与常用组件
- 2.2.1 PyTorch/Lightning、FSDP/DeepSpeed、混合精度
- 2.2.2 数据加载：WebDataset、tar shard、mmap、缓存策略
2.3 实验可复现与可回放
- 2.3.1 配置管理（YAML/JSON/CLI）、随机种子、版本锁定
- 2.3.2 训练记录：tensorboard/wandb、本地日志结构
2.4 评测与回归自动化（小规模 sanity → 全量 benchmark）
2.5 训练中常见“隐形坑”：NaN、梯度爆炸、数据卡死、指标虚高

Chapter 3（`chapter3.md`）数据与标注：采集、清洗、切分、对齐与许可

3.1 数据许可与“可用性分级”
- 3.1.1 开源/研究许可/商用限制/不可再分发
- 3.1.2 版权、肖像/声音权、合规注意点（仅给工程建议，不替代法律意见）
3.2 音频基础规范
- 3.2.1 采样率、位深、声道、编码格式（wav/flac/mp3）
- 3.2.2 响度、削波、静音、噪声类型分布
3.3 标注粒度选择
- 3.3.1 句级/段级/词级/字级时间戳
- 3.3.2 diarization：turn-level / frame-level / overlap 标注
3.4 数据切分策略（train/dev/test）
- 3.4.1 说话人泄漏、内容泄漏、同节目/同会话泄漏
- 3.4.2 多语种分层抽样与长尾覆盖
3.5 强制对齐与切分（强烈建议做）
- 3.5.1 GMM/HMM 强制对齐、CTC segmentation、MFA 等思路对比
- 3.5.2 失败样本的自动诊断与回收（短音频、错字、口音、噪声）
3.6 数据质量体系
- 3.6.1 文本/音频一致性检查、异常检测（时长、字符分布、语言分布）
- 3.6.2 人工抽检策略与“可解释的质量报告”
3.7 面向 MLLM 的数据额外字段（为后续章节铺垫）
- 3.7.1 指令/上下文/领域标签/说话人画像摘要
- 3.7.2 可检索知识（RAG）的切片与索引字段

Chapter 4（`chapter4.md`）文本规范化全家桶：TN / ITN / OpenCC / 混语与混脚本

本章是多语种 ASR 成败的关键：同样模型，不同规范，WER/CER 可差很多。

4.1 统一的文本表示原则（“训练文本”与“评测文本”必须同一套规范）
4.2 Unicode 与字符层标准化（强烈建议先做）
- 4.2.1 NFKC/NFC、全角/半角、兼容区（CJK Compatibility Ideographs）
- 4.2.2 易混淆字符（confusables）：O/0、l/1、中文标点变体等
- 4.2.3 空白符规范：多空格、不可见字符、换行/制表
4.3 标点与大小写策略
- 4.3.1 训练是否保留标点：对下游（字幕/会议纪要）与指标的影响
- 4.3.2 英文大小写、缩写（NASA/AI）与分词器的交互
4.4 中文 TN（Text Normalization）细则
- 4.4.1 数字：纯数字、序数、小数、百分比、分数、范围（3-5）
- 4.4.2 日期时间：2025/12/24、12月24日、24th Dec 等多样式
- 4.4.3 货币/单：￥/$、km/kg/℃，以及中文单位“公里/千克”
- 4.4.4 电话/身份证/车牌/网址（PII 处理策略：脱敏/保留/替换）
- 4.4.5 口语化与语气词：啊/呃/嗯/哈，以及笑声、咳嗽等事件标签
4.5 中文 ITN（Inverse Text Normalization）细则（模型输出→可读文本）
- 4.5.1 WFST/语法规则式 ITN：可控、可解释
- 4.5.2 神经 ITN：鲁棒但可能“过度改写”
- 4.5.3 ITN 评测：整体 WER vs 数字/时间/实体的专项指标
4.6 繁体中文与地区差异：OpenCC 与可控转换
- 4.6.1 简繁转换策略：训练端统一 vs 评测端兼容
- 4.6.2 专有名词与地区用字（台港）处理：白名单/词典优先
4.7 粤语（Cantonese）文本与读音：Hanzi / Jyutping / 混写
- 4.7.1 粤语特有字、口语词、语气助词（嘅/咗/喺/啲…）
- 4.7.2 Hanzi vs 拼音（Jyutping）两套路：优缺点与混合方案
- 4.7.3 与普通话共享汉字导致的“同形异读”风险
4.8 日语中文汉字混淆：平假名/片假名（かな）问题
- 4.8.1 Kanji（漢字）与中文同形词：是否共享 token、如何加语言标签
- 4.8.2 かな（ひらがな/カタカナ）与外来词：分词、大小写、长音符
- 4.8.3 处理中日混语的“脚本提示”（script-aware prompting / tags）
4.9 其他主要语种的 TN/ITN 要点（按脚本归类）
- 4.9.1 韩语（Hangul）：空格、外来词、数字读法
- 4.9.2 阿拉伯语：变音符、形态变化、双向文本
- 4.9.3 印地语/天城文：合字、标点、数字体系
- 4.9.4 泰语/老挝语：无空格分词与子词建模的关系
4.10 多语言混合处理（code-switch）“可落地”的统一方案
- 4.10.1 语言标签：句级/词级/子词级
- 4.10.2 共享词表 vs 分语种词表（多 tokenizer / 多 head）
- 4.10.3 “同形字符”冲突治理：CJK/Latin/数字混杂
4.11 面向 MLLM 的借鉴意义（本章与后续 MLLM 章节的连接点）
- 4.11.1 规范化 = 可控性：让 MLLM 输出更可评测、更可工具化
- 4.11.2 ITN 作为“工具调用”：把难点从模型迁出到可控模块
- 4.11.3 RAG/热词/实体：规范字段是检索与对齐的前提

Chapter 5（`chapter5.md`）音频预处理与切分：VAD/SAD、重叠语音、对齐、增广数据生成

5.1 音频清洗：去静音、去削波、DC offset、带通/降噪（谨慎）
5.2 VAD 与 SAD
- 5.2.1 传统能量阈值 vs 神经 VAD
- 5.2.2 会议场景：短停顿、呼吸声、键盘声的误检治理
5.3 切分策略对 ASR 的影响
- 5.3.1 过短切分：上下文不足；过长切分：对齐困难/显存爆
- 5.3.2 标点恢复/断句与切分的关系
5.4 重叠语音（overlap）处理
- 5.4.1 丢弃/保留/分离（SS）三路线
- 5.4.2 diarization 与 ASR 的耦合：先分离再识别 vs 联合建模
5.5 多通道与阵列音频基础
- 5.5.1 通道选择、同步、延迟
- 5.5.2 波束形成（作为选读扩展）
5.6 数据增广audio-level）
- 5.6.1 speed perturb、音量扰动、混响 RIR
- 5.6.2 噪声混合：MUSAN/自采噪声，SNR 采样策略
- 5.6.3 说话人混合：用于 diarization/分离/鲁棒性
5.7 面向 MLLM 的借鉴意义
- 5.7.1 “长音频切块 + 上下文拼接”是 MLLM 流式/长上下文的前置条件
- 5.7.2 让检索与对齐可行：chunk 的稳定边界与时间戳策略

Chapter 6（`chapter6.md`）特征与前端：从 MFCC 到可学习前端，再到 SSL 表征

6.1 经典声学特征：MFCC / filterbank / log-mel
6.2 特征归一化：CMVN、说话人级/语料级统计
6.3 SpecAugment 与时频遮挡
6.4 可学习前端：Conv front-end、SincNet 思路（选读）
6.5 自监督特征（为 Chapter 9/16 铺垫）
- 6.5.1 wav2vec2 / HuBERT / WavLM / XLS-R 等家族的“怎么用”
- 6.5.2 特征抽取 vs 端到端微调：算力与效果折中
6.6 面向 MLLM 的借鉴意义
- 6.6.1 “音频编码器”如何与 LLM 对齐：特征尺度/帧率/时压缩
- 6.6.2 多任务监督（ASR+VAD+说话人）提升可控性与泛化

Chapter 7（`chapter7.md`）RNN 时代 ASR：从 LSTM/GRU 到 CTC/Attention（并讨论对 MLLM 的启示）

7.1 RNN 声学模型的基本形态：BiLSTM/GRU、堆叠、投影层
7.2 训练目标
- 7.2.1 CTC：对齐自由度、blank、collapse 规则
- 7.2.2 Attention/LAS：teacher forcing、曝光偏差、长度偏置
- 7.2.3 混合损失：CTC+Attention 的经典配方
7.3 解码与语言模型（LM）
- 7.3.1 n-gram LM 与 WFST 解码（概念与工程落地）
- 7.3.2 LM fusion：shallow fusion / cold fusion（思想层）
7.4 单语到多语：RNN 时代怎么做（以及为什么会卡住）
7.5 错误分析：RNN 时代常见错因（长句、口音、噪声、OOV）
7.6 对 MLLM 的借鉴意义（重点）
- 7.6.1 CTC 的“对齐思维”如何帮助 MLLM 做时间戳/可解释对齐
- 7.6.2 WFST/规则化后处理作为 MLLM 的外部工具链
- 7.6.3 LM 融合思想 → MLLM 的“检索/提示融合”类比

Chapter 8（`chapter8.md`）Conv + LSTM 时代：CLDNN/CRDNN/TDNN-LSTM 与流式工程（并讨论对 MLLM 的启示）

8.1 为什么要 Conv：局部不变性、降噪、特征压缩
8.2 典型结构
- 8.2.1 CLDNN：CNN + LSTM + DNN
- 8.2.2 CRDNN：CNN + RNN + DNN（更泛化的视角）
- 8.2.3 TDNN-LSTM / CNN-TDNN-LSTM：语音工业界常见路线（思想与训练要点）
8.3 流式（streaming）约束下的建模与训练
- 8.3.1 chunking、lookahead、状态缓存
- 8.3.2 延迟-准确率权衡与评测方式
8.4 多语种训练的工程技巧：采样、温度、长尾、域适配
8.5 对 MLLM 的借鉴意义（重点）
- 8.5.1 “可流式”的先验：MLLM 做实时 ASR 的切块与缓存设计
- 8.5.2 结构化偏置（Conv/RNN）→ MLLM 中“音频编码器归纳偏置”的价值
- 8.5.3 小模型可控模块：在 MLLM 旁路承担 VAD/时间戳/说话人等工具任务

Chapter 9（`chapter9.md`）Transformer 自监督过渡：Conformer、Transducer、SSL 微调（连接到 MLLM）

9.1 Transformer/Conformer 核心：自注意力、卷积模块、相对位置编码
9.2 训练目标谱系：CTC / AED / RNN-T（Transducer）
9.3 大规模预训练 + 微调：wav2vec2/HuBERT/WavLM/XLS-R 思路落地
9.4 多语种统一模型：共享子词、共享声学表征、语言适配器（adapter/LoRA 思想预埋）
9.5 对 MLLM 的借鉴意义（重点）
- 9.5.1 “基础模型范式”如何迁移到 MLLM：规模、数据、对齐
- 9.5.2 语音 tokenization / 时序压缩对 LLM 交互的关键点
- 9.5.3 用 SSL 学到的说话人/韵律信息：如何服务 diarization 与语义理解

Chapter 10（`chapter10.md`）Speaker Diarization 经典流水线：SAD + Embedding + Clustering + Resegmentation

10.1 任务定义与输出形式：RTTM、说话人段、frame-level 标签
10.2 SAD/VAD：从门控到神经 SAD
10.3 说话人表示
- 10.3.1 i-vector → x-vector：训练数据、损、域迁移
- 10.3.2 embedding 后处理：长度归一化、PCA/LDA、PLDA（思想层）
10.4 聚类
- 10.4.1 AHC（层次聚类）与阈值选择
- 10.4.2 Spectral clustering 与亲和矩阵构建
10.5 重分割与平滑：VBx、HMM resegmentation（概念与使用时机）
10.6 与 ASR 的组合方式
- 10.6.1 diarization→ASR（分轨识别）
- 10.6.2 ASR→diarization（用转写做辅助特征/边界）
10.7 对 MLLM 的借鉴意义
- 10.7.1 “先结构化再生成”：把说话人边界当作可控先验提供给 MLLM
- 10.7.2 embedding 作为检索键：跨会话同一说话人追踪与个性化

Chapter 11（`chapter11.md`）神经 diarization 与端到端联合：EEND、TS-VAD、SA-ASR

11.1 EEND 家族：把 diarization 当作多标签序列学习
- 11.1.1 输出通道数与说话人数量不确定性
- 11.1.2 overlap 建模的天然优势与训练难点
11.2 TS-VAD：Target-Speaker VAD 与多说话人建模
11.3 联合任务
- 11.3.1 Speaker-Attributed ASR（带说话人标签的转写）
- 11.3.2 分离（SS）+ ASR + diarization 的组合训练
11.4 训练数据构造：混合生成、说话人配对采样、难例挖掘
11.5 与 MLLM 连接：把“谁在说什么”变成可提示/可检索的结构化输入

Chapter 12（`chapter12.md`）多语种与混语训练：从数据采样到词表、从 LID 到 MoE/Adapter

12.1 多语种困难分解：声学差异、文字系统差异、标注规范差异
12.2 词表与建模单位选择
- 12.2.1 字符/子词/BPE/SentencePiece
- 12.2.2 byte-level（字节级）与“跨脚本统一”策略
- 12.2.3 音素/拼音/罗马化：何时值得做（尤其对粤语/日语）
12.3 数据采样与平衡
- 12.3.1 温度采样、按小时/按句子数、按说话人
- 12.3.2 长尾语种与低资源语种的保底策略
12.4 语言识别（LID）与条件化建模
- 12.4.1 显式 LID：先判语种再识别 vs 联合
- 12.4.2 隐式条件：语言 token / adapter / prompt
12.5 code-switch（混语）专项
- 12.5.1 训练集构造：自然混语 vs 合成混语
- 12.5.2 评测定义：MER（Mixed Error Rate）、按语种分解的 WER/CER
12.6 面向 MLLM：多语种“对齐”与“可控输出”如何通过数据与规范实现

Chapter 13（`chapter13.md`）评测与误差分析：ASR（WER/CER/MER）与 Diarization（DER/JER）的细节陷阱

13.1 ASR 指标体系
- 13.1.1 WER/CER 的选择与可比性
- 13.1.2 对齐规则、空格、标点、大小写对指标的影响
- 13.1.3 code-switch：MER 与按语种拆分的指标
13.2 TN/ITN 的评测方法
- 13.2.1 “先 TN 再算 WER” vs “原样算 WER”两套口径
- 13.2.2 数字/日期/单位的专项集（challenge set）构建
13.3 Diarization 指标体系
- 13.3.1 DER：collar、overlap、SAD 错误如何计入
- 13.3.2 JER 与其他补充指标（段边界、说话人混淆）
13.4 误差分析与可视化
- 13.4.1 典型错因分类（口音/噪声/专名/切分/规范化）
- 13.4.2 分桶统计：按时长、SNR、语速、语种、领域、说话人数
13.5 回归测试与“指标防回退”机制（训练迭代必备）

Chapter 14（`chapter14.md`）开源工具链与训练配方：Kaldi / ESPnet / NeMo / SpeechBrain / WeNet / FunASR / pyannote

14.1 选型建议：科研复现 vs 工业训练 vs 快速落地
14.2 ASR 框架实战要点（每家都讲“共同结构”，不只贴命令）
- 14.2.1 数据准备格式：manifest/jsonl、Kaldi style、tar shard
- 14.2.2 训练配置：batch、累积梯度、SpecAug、tokenizer
- 14.2.3 解码：beam、LM fusion、热词/上下文 biasing
14.3 Diarization 工具链
- 14.3.1 pyannote.audio：pipeline 组合与自定义训练
- 14.3.2 NeMo diarization：SAD + embedding + clustering 全流程
- 14.3.3 SpeechBrain diarization：配方与复现注意点
14.4 通用工程模块（建议沉淀为 tools/）
- 14.4.1 TN/ITN、OpenCC、脚本映射
- 14.4.2 对齐切分、评测脚本、报生成
14.5 面向 MLLM：如何把传统工具链包装成“可调用工具”（tool API）

Chapter 15（`chapter15.md`）开源数据集大全：ASR / 多语种 / 会议 / 噪声 / diarization / speaker

本章按“用途+语种+许可可用性”组织，并给出推荐的组合方式。

15.1 如何读数据集列表：开源程度、标注质量、领域、口音、噪声、说话人数量
15.2 中文（普通话/简繁）ASR 常用数据集
- 15.2.1 AISHELL 系列（1/2/3/4）
- 15.2.2 WenetSpeech
- 15.2.3 THCHS-30
- 15.2.4 ST-CMDS
- 15.2.5 Primewords
- 15.2.6 Aidatatang_200zh
- 15.2.7 MagicData（开放子集/研究许可子集按可得性注明）
- 15.2.8 Common Voice：中文（含简体/繁体覆盖视版本）
15.3 粤语/港澳地区相关（以可公开获取为主）
- 15.3.1 Common Voice：Cantonese（yue）/ Chinese（zh-HK/zh-TW 等视版本）
- 15.3.2 其他公开可得粤语语音（按可用性汇总：研究项目/竞赛集/开源子集）
15.4 英文 ASR 常用数据集
- 15.4.1 LibriSpeech / LibriTTS
- 15.4.2 TED-LIUM
- 15.4.3 GigaSpeech
- 15.4.4 Common Voice（English 多口音）
- 15.4.5 AMI（会议语音，也用于 diarization）
15.5 日语 ASR 常用数据集（公开/研究可用为主）
- 15.5.1 Common Voice（Japanese）
- 15.5.2 JSUT
- 15.5.3 JVS（Japanese Versatile Speech）
- 15.5.4 ReazonSpeech（若可公开获取则列入主清单，否则列“可申请”）
15.6 韩语 ASR 常用数据集
- 15.6.1 KsponSpeech（注意许可）
- 15.6.2 Common Voice（Korean）
15.7 欧洲多语种与高资源语种
- 15.7.1 MLS（Multilingual LibriSpeech）
- 15.7.2 VoxPopuli
- 15.7.3 Common Voice（多语种长尾覆盖）
15.8 超多语种与评测集
- 15.8.1 FLEURS（多语种统一评测/训练资源）
- 15.8.2 mTEDx / TEDx 多语种语料（按可得性）
15.9 低资源/长尾语种（按许可与可得性分类列举）
- 15.9.1 IARPA BABEL（若不可开源则标注为“受限/申制”）
- 15.9.2 其他公开项目：电台/议会/宗教朗读等语料（按来源归类）
15.10 噪声/混响/多说话人混合：训练鲁棒性的“配料”
- 15.10.1 MUSAN（噪声/音乐/杂音）
- 15.10.2 DNS Challenge 数据/噪声集（按可得性）
- 15.10.3 WHAM! / WHAMR! / LibriMix / SMS-WSJ（混合语音/分离/重叠）
15.11 会议/多说话人 ASR 与 diarization 数据集
- 15.11.1 AMI Meeting Corpus
- 15.11.2 ICSI Meeting Corpus（若许可受限则标注）
- 15.11.3 CHiME-6（噪声会议/家庭聚会类）
- 15.11.4 AISHELL-4（多通道会议/说话人）
- 15.11.5 AliMeeting（若可公开获取则列入）
- 15.11.6 LibriCSS（重叠与连续语音场景）
15.12 Diarization 专项评测集
- 15.12.1 DIHARD 系列
- 15.12.2 CALLHOME（若许可受限则标注）
- 15.12.3 VoxConverse（对话场景）
15.13 Speaker recognition / embedding 训练数据（用于 x-vector 等）
- 15.13.1 VoxCeleb 1/2
- 15.13.2 SITW（Speakers in the Wild）
- 15.13.3 CN-Celeb / CNCeleb（若可得性受限则标注）
15.14 数据集组合“推荐菜单”
- 15.14.1 低成本起步（开源优先）
- 15.14.2 会议 diarization 优先组合
- 15.14.3 多语种长尾覆盖组合
- 15.14.4 领域自适应（医疗/法律/客服/直播）如何补数据

Chapter 16（`chapter16.md`）MLLM 时代：从 Speech Foundation Model 到“可对话的语音智能体”

16.1 什么是 MLLM 时代的 ASR/diarization：能力边界与常见误解
16.2 典型架构谱系
- 16.2.1 音频编码器 + LLM（投影/适配层对齐）
- 16.2.2 离散语音 token（codec/tokenizer）+ LLM
- 16.2.3 端到端 Speech-to-Text 指令微调（instruction tuning）
16.3 训练范式
- 16.3.1 预训练（多任务）：ASR/AST/QA/音频事件/说话人
- 16.3.2 对齐与指令：数据模板、拒答/纠错、格式约束
- 16.3.3 参数高效微调：adapter/LoRA/QLoRA（概念与取舍）
16.4 MLLM ASR 的典型问题
- 16.4.1 幻觉（hallucination）与“补词”
- 16.4.2 时间戳、断句与格式一致性
- 16.4.3 多语种与混语：语言漂移、脚本漂移
16.5 传统时代对 MLLM 的继承关系（回扣 Chapter 4/7/8/9）
- 16.5.1 规范化/ITN 作为外部工具
- 16.5.2 解码约束/热词偏置的“可控输出”思想
- 16.5.3 diarization 结构化先验（边界/说话人）作为输入条件

Chapter 17（`chapter17.md`）MLLM 新内容：RAG 热词识别、上下文增强、可控解码与说话人知识注入

17.1 RAG 做“热词识别/专名召回”的核心思路
- 17.1.1 语音→初稿→检索→二次解码/重写的两段式
- 17.1.2 热词来源：通讯录/组织架构/业务词库/近期事件/会议信息
- 17.1.3 检索粒度：词/短语/实体；时间范围与权限控制
17.2 热词注入与偏置方法大全（从传统到 MLLM）
- 17.2.1 传统：WFST/lexicon biasing、shallow fusion（思想回扣）
- 17.2.2 神经：contextual biasing、prefix-constrained decoding
- 17.2.3 MLLM：prompt 约束、结构化候选表、tool 调用改写
17.3 领域术语与缩写的鲁棒处理
- 17.3.1 医疗/法律/金融：数字/单位/缩写密集场景
- 17.3.2 “术语表 + TN/ITN + RAG”三件套
17.4 说话人相关的 RAG（Speaker-aware RAG）
- 17.4.1 说话人画像：姓名/职位/口音/常用词（隐私与权限）
- 17.4.2 跨会话同一说话人追踪：embedding 作为检索键
17.5 会议场景增强：议程/参会人/历史纪要作为上下文
17.6 MLLM 与 diarization 的融合新玩法（可落地优先）
- 17.6.1 diarization 结果→结构化提示→生成“带说话人转写”
- 17.6.2 不确定性表达：置信度、候选、多版本输出
17.7 防幻觉与格式约束
- 17.7.1 “只允许改写某些字段”的局部编辑策略
- 17.7.2 断言式校验：正则/词典/ITN 规则做自动验收
17.8 与 Chapter 13 的连接：如何评测 RAG/热词是否真的提升（不引入副作用）

Chapter 18（`chapter18.md`）生产化落地：流式、延迟、部署、监控、隐私与安全

18.1 离线 vs 流式系统设计
- 18.1.1 chunk 策略、端点检测、增量修订（partial hypothesis）
- 18.1.2 diarization 流式：在线聚类、说话人漂移与回溯修正
18.2 性能优化
- 18.2.1 量化/蒸馏/剪枝、KV cache、batching
- 18.2.2 ONNX/TensorRT（可选）、CPU 推理策略
18.3 可靠性与可观测性
- 18.3.1 指标：延迟、失败率、WER proxy、覆盖率、热词命中率
- 18.3.2 日志与抽样回放：可复盘的线上问题定位
18.4 数据闭环与持续学习
- 18.4.1 主动学习：挑哪些样本回标
- 18.4.2 伪标签与自训练：收益与风险（漂移/污染）
18.5 隐私与安全工程实践
- 18.5.1 PII 脱敏（音频与文本）
- 18.5.2 权限控制：RAG 知识源隔离、审计
- 18.5.3 风险输出治理：避免“编造事实”的业务伤害

Chapter 19（`chapter19.md`）附录 A：TN/ITN 速查表中英为主，覆盖多语种关键点）

19.1 中文数字/日期/时间/单位规则模板
19.2 英文缩写/大小写/连字符规则模板
19.3 code-switch 常见模式与推荐规范
19.4 专名与热词：白名单/黑名单与冲突处理

Chapter 20（`chapter20.md`）附录 B：OpenCC、脚本映射与正则工具箱（含示例）

20.1 OpenCC 常用配置与注意点（简繁、台港用字差异）
20.2 中日同形汉字与かな处理示例（脚本提示、token 策略）
20.3 粤语 Hanzi/Jyutping 混写治理示例
20.4 Unicode 清洗正则：不可见字符、全半角、标点统一
20.5 评测前统一化脚本（gold/hyp 一致处理）

Chapter 21（`chapter21.md`）附录 C：术语表、常见问答（FAQ）与进一步阅读

21.1 术语表：CTC/AED/RNNT/DER/JER/SAD/VAD/SSL/RAG…
21.2 FAQ：指标不降、训练不收敛、混语崩坏、热词越加越差等
21.3 进一步阅读：论文脉络（RNN→Conv+LSTM→Transformer/SSL→MLLM）与工程文档路线

章节之间的“强依赖关系”（写作/实现提醒）

Chapter 4（文本规范化） 是多语种/混语/MLLM 可控输出的地基：建议优先完成。
Chapter 13（评测） 要尽早落地：否则训练迭代会在“看起来更好”但不可比的口径里迷失。
Chapter 17（MLLM+RAG 热词） 必须建立在 Chapter 4/13 的规范与评测之上，否则热词“命中”可能只是指标幻觉。

asr_sd_tutorial

ASR 与 Speaker Diarization 训练中文教程（多语种：中英及主要语种｜RNN → Conv+LSTM → MLLM）

阅读路线建议（按目标选一条）

仓库结构（规划）

章节目录与详细小节清单

Chapter 1（chapter1.md）任务全景：ASR 与 Diarization 的训练对象、边界与通用流水线

Chapter 2（chapter2.md）工程与实验基线：环境、框架、分布式与可复现

Chapter 3（chapter3.md）数据与标注：采集、清洗、切分、对齐与许可

Chapter 4（chapter4.md）文本规范化全家桶：TN / ITN / OpenCC / 混语与混脚本

Chapter 5（chapter5.md）音频预处理与切分：VAD/SAD、重叠语音、对齐、增广数据生成

Chapter 6（chapter6.md）特征与前端：从 MFCC 到可学习前端，再到 SSL 表征

Chapter 7（chapter7.md）RNN 时代 ASR：从 LSTM/GRU 到 CTC/Attention（并讨论对 MLLM 的启示）

Chapter 8（chapter8.md）Conv + LSTM 时代：CLDNN/CRDNN/TDNN-LSTM 与流式工程（并讨论对 MLLM 的启示）

Chapter 9（chapter9.md）Transformer 自监督过渡：Conformer、Transducer、SSL 微调（连接到 MLLM）

Chapter 10（chapter10.md）Speaker Diarization 经典流水线：SAD + Embedding + Clustering + Resegmentation

Chapter 11（chapter11.md）神经 diarization 与端到端联合：EEND、TS-VAD、SA-ASR

Chapter 12（chapter12.md）多语种与混语训练：从数据采样到词表、从 LID 到 MoE/Adapter

Chapter 13（chapter13.md）评测与误差分析：ASR（WER/CER/MER）与 Diarization（DER/JER）的细节陷阱

Chapter 14（chapter14.md）开源工具链与训练配方：Kaldi / ESPnet / NeMo / SpeechBrain / WeNet / FunASR / pyannote

Chapter 15（chapter15.md）开源数据集大全：ASR / 多语种 / 会议 / 噪声 / diarization / speaker

Chapter 16（chapter16.md）MLLM 时代：从 Speech Foundation Model 到“可对话的语音智能体”

Chapter 17（chapter17.md）MLLM 新内容：RAG 热词识别、上下文增强、可控解码与说话人知识注入

Chapter 18（chapter18.md）生产化落地：流式、延迟、部署、监控、隐私与安全

Chapter 19（chapter19.md）附录 A：TN/ITN 速查表中英为主，覆盖多语种关键点）

Chapter 20（chapter20.md）附录 B：OpenCC、脚本映射与正则工具箱（含示例）

Chapter 21（chapter21.md）附录 C：术语表、常见问答（FAQ）与进一步阅读

章节之间的“强依赖关系”（写作/实现提醒）

Chapter 1（`chapter1.md`）任务全景：ASR 与 Diarization 的训练对象、边界与通用流水线

Chapter 2（`chapter2.md`）工程与实验基线：环境、框架、分布式与可复现

Chapter 3（`chapter3.md`）数据与标注：采集、清洗、切分、对齐与许可

Chapter 4（`chapter4.md`）文本规范化全家桶：TN / ITN / OpenCC / 混语与混脚本

Chapter 5（`chapter5.md`）音频预处理与切分：VAD/SAD、重叠语音、对齐、增广数据生成

Chapter 6（`chapter6.md`）特征与前端：从 MFCC 到可学习前端，再到 SSL 表征

Chapter 7（`chapter7.md`）RNN 时代 ASR：从 LSTM/GRU 到 CTC/Attention（并讨论对 MLLM 的启示）

Chapter 8（`chapter8.md`）Conv + LSTM 时代：CLDNN/CRDNN/TDNN-LSTM 与流式工程（并讨论对 MLLM 的启示）

Chapter 9（`chapter9.md`）Transformer 自监督过渡：Conformer、Transducer、SSL 微调（连接到 MLLM）

Chapter 10（`chapter10.md`）Speaker Diarization 经典流水线：SAD + Embedding + Clustering + Resegmentation

Chapter 11（`chapter11.md`）神经 diarization 与端到端联合：EEND、TS-VAD、SA-ASR

Chapter 12（`chapter12.md`）多语种与混语训练：从数据采样到词表、从 LID 到 MoE/Adapter

Chapter 13（`chapter13.md`）评测与误差分析：ASR（WER/CER/MER）与 Diarization（DER/JER）的细节陷阱

Chapter 14（`chapter14.md`）开源工具链与训练配方：Kaldi / ESPnet / NeMo / SpeechBrain / WeNet / FunASR / pyannote

Chapter 15（`chapter15.md`）开源数据集大全：ASR / 多语种 / 会议 / 噪声 / diarization / speaker

Chapter 16（`chapter16.md`）MLLM 时代：从 Speech Foundation Model 到“可对话的语音智能体”

Chapter 17（`chapter17.md`）MLLM 新内容：RAG 热词识别、上下文增强、可控解码与说话人知识注入

Chapter 18（`chapter18.md`）生产化落地：流式、延迟、部署、监控、隐私与安全

Chapter 19（`chapter19.md`）附录 A：TN/ITN 速查表中英为主，覆盖多语种关键点）

Chapter 20（`chapter20.md`）附录 B：OpenCC、脚本映射与正则工具箱（含示例）

Chapter 21（`chapter21.md`）附录 C：术语表、常见问答（FAQ）与进一步阅读