asr_sd_tutorial

ASR 与 Speaker Diarization 训练中文教程(多语种:中英及主要语种|RNN → Conv+LSTM → MLLM)

文件组织:index.md + chapter1.md + chapter2.md + …
index.md 给出完整章节规划每章小节清单(足够细到可直接按清单逐章写作/实现)。


阅读路线建议(按目标选一条)


仓库结构(规划)


章节目录与详细小节清单

Chapter 1(chapter1.md)任务全景:ASR 与 Diarization 的训练对象、边界与通用流水线


Chapter 2(chapter2.md)工程与实验基线:环境、框架、分布式与可复现


Chapter 3(chapter3.md)数据与标注:采集、清洗、切分、对齐与许可


Chapter 4(chapter4.md)文本规范化全家桶:TN / ITN / OpenCC / 混语与混脚本

本章是多语种 ASR 成败的关键:同样模型,不同规范,WER/CER 可差很多


Chapter 5(chapter5.md)音频预处理与切分:VAD/SAD、重叠语音、对齐、增广数据生成


Chapter 6(chapter6.md)特征与前端:从 MFCC 到可学习前端,再到 SSL 表征


Chapter 7(chapter7.md)RNN 时代 ASR:从 LSTM/GRU 到 CTC/Attention(并讨论对 MLLM 的启示)


Chapter 8(chapter8.md)Conv + LSTM 时代:CLDNN/CRDNN/TDNN-LSTM 与流式工程(并讨论对 MLLM 的启示)


Chapter 9(chapter9.md)Transformer 自监督过渡:Conformer、Transducer、SSL 微调(连接到 MLLM)


Chapter 10(chapter10.md)Speaker Diarization 经典流水线:SAD + Embedding + Clustering + Resegmentation


Chapter 11(chapter11.md)神经 diarization 与端到端联合:EEND、TS-VAD、SA-ASR


Chapter 12(chapter12.md)多语种与混语训练:从数据采样到词表、从 LID 到 MoE/Adapter


Chapter 13(chapter13.md)评测与误差分析:ASR(WER/CER/MER)与 Diarization(DER/JER)的细节陷阱


Chapter 14(chapter14.md)开源工具链与训练配方:Kaldi / ESPnet / NeMo / SpeechBrain / WeNet / FunASR / pyannote


Chapter 15(chapter15.md)开源数据集大全:ASR / 多语种 / 会议 / 噪声 / diarization / speaker

本章按“用途+语种+许可可用性”组织,并给出推荐的组合方式。


Chapter 16(chapter16.md)MLLM 时代:从 Speech Foundation Model 到“可对话的语音智能体”


Chapter 17(chapter17.md)MLLM 新内容:RAG 热词识别、上下文增强、可控解码与说话人知识注入


Chapter 18(chapter18.md)生产化落地:流式、延迟、部署、监控、隐私与安全


Chapter 19(chapter19.md)附录 A:TN/ITN 速查表中英为主,覆盖多语种关键点)


Chapter 20(chapter20.md)附录 B:OpenCC、脚本映射与正则工具箱(含示例)


Chapter 21(chapter21.md)附录 C:术语表、常见问答(FAQ)与进一步阅读


章节之间的“强依赖关系”(写作/实现提醒)