文件组织:
index.md+chapter1.md+chapter2.md+ …
本index.md给出完整章节规划与每章小节清单(足够细到可直接按清单逐章写作/实现)。
index.mdchapter1.md … chapter21.mdassets/(示例音频、图、表、配置片段)recipes/(训练脚本与配置模板:ESPnet/NeMo/SpeechBrain/WeNet/FunASR/pyannote 等)tools/(TN/ITN、OpenCC、对齐切分、评测脚本、数据检查器)chapter1.md)任务全景:ASR 与 Diarization 的训练对象、边界与通用流水线chapter2.md)工程与实验基线:环境、框架、分布式与可复现chapter3.md)数据与标注:采集、清洗、切分、对齐与许可chapter4.md)文本规范化全家桶:TN / ITN / OpenCC / 混语与混脚本本章是多语种 ASR 成败的关键:同样模型,不同规范,WER/CER 可差很多。
chapter5.md)音频预处理与切分:VAD/SAD、重叠语音、对齐、增广数据生成chapter6.md)特征与前端:从 MFCC 到可学习前端,再到 SSL 表征chapter7.md)RNN 时代 ASR:从 LSTM/GRU 到 CTC/Attention(并讨论对 MLLM 的启示)chapter8.md)Conv + LSTM 时代:CLDNN/CRDNN/TDNN-LSTM 与流式工程(并讨论对 MLLM 的启示)chapter9.md)Transformer 自监督过渡:Conformer、Transducer、SSL 微调(连接到 MLLM)chapter10.md)Speaker Diarization 经典流水线:SAD + Embedding + Clustering + Resegmentationchapter11.md)神经 diarization 与端到端联合:EEND、TS-VAD、SA-ASRchapter12.md)多语种与混语训练:从数据采样到词表、从 LID 到 MoE/Adapterchapter13.md)评测与误差分析:ASR(WER/CER/MER)与 Diarization(DER/JER)的细节陷阱chapter14.md)开源工具链与训练配方:Kaldi / ESPnet / NeMo / SpeechBrain / WeNet / FunASR / pyannotetools/)
chapter15.md)开源数据集大全:ASR / 多语种 / 会议 / 噪声 / diarization / speaker本章按“用途+语种+许可可用性”组织,并给出推荐的组合方式。
chapter16.md)MLLM 时代:从 Speech Foundation Model 到“可对话的语音智能体”chapter17.md)MLLM 新内容:RAG 热词识别、上下文增强、可控解码与说话人知识注入chapter18.md)生产化落地:流式、延迟、部署、监控、隐私与安全chapter19.md)附录 A:TN/ITN 速查表中英为主,覆盖多语种关键点)chapter20.md)附录 B:OpenCC、脚本映射与正则工具箱(含示例)chapter21.md)附录 C:术语表、常见问答(FAQ)与进一步阅读