(交流可以用英文,所有文档中文)
项目目标
编写一份面向 ASR 与 speaker diarization 训练(面向中英文语种及其他主要语种)的中文教程markdown要包含 RNN,Conv+LSTM,MLLM 各时代内容(MLLM 时代之前内容,要增加讨论对 MLLM 的借鉴意义),以及数据准备、测评的处理细节,如 text normalization, inverse text normalization,繁体中文 opencc,粤语/日语与中文汉字混淆(平假名片假名问题) ,多语言混合处理等(再想一些)。以及基于 MLLM 的新内容,如 RAG 的热词识别(再想一些)。以及常见开源数据集(多找一些)。 要包含大量的习题和参考答案(答案默认折叠)。
文件组织是 index.md + chapter1.md + ... 不写代码。 提供 rule-of-thumb。
章节结构要求
每个章节应包含:
- 开篇段落:简要介绍本章内容和学习目标
- 文字论述:以文字论述为主,适当配上ASCII 图说明。
- 本章小结:总结关键概念和公式
- 练习题: - 每章包含6-8道练习题 - 50%基础题(帮助熟悉材料) - 50%挑战题(包括开放性思考题) - 每题提供提示(Hint) - 答案默认折叠,不包含代码
- 常见陷阱与错误 (Gotchas):每章包含该主题的常见错误和调试技巧