(交流可以用英文,所有文档中文)

项目目标

编写一份《车规级全双工语音座舱系统:端到端生产方案》的中文课程markdown 文件组织是 index.md + chapter1.md + ... 不写代码

详细

写一本中文公开教程 markdown讨论如何做一个先进的汽车座舱(前后排都包含)语音互动系统,目标读者是 ai scientist 和中厂 infra 工程师。从原理到所有重要实操细节。给出端到端语音系统(包含全车状态)的生产级方案。 核心模型为语音进语音出(可以像 Moshi https://arxiv.org/pdf/2410.00037 一样夹杂文字来提高智力)(也支持视觉信号输入),通过并行双输入头和双输出头,来支持全双工交互(输出语音时可以利用Echo cancellation)。支持基于音区和声纹(需用户主动注册),自动对话状态管理,免唤醒词,支持和车内摄像头和自驾系统的互动,支持和车控(如车窗、座椅等的互动)。支持语音助手的人格设置和捏音色等。支持和后排娱乐系统的打通。支持对打入电话的特殊处理,支持对车外声音环境的感知。支持对用户嘘寒问暖(基于从用户声线读出的疲惫感等)支持主要中国方言和英日欧洲主要语言(有专门章讨论数据集获取),并有一套基于 IPA 的其他语言兜底支持(包含合规审核)(IPA 的支持是指模型有能力将语音转 IPA,然后将 IPA 与文字能力对齐实现对话)。要专门章节讨论 VAD、speaker diarization 这些。 教程由 index.md + chapter1.md + chapter2.md + ... 组成。要有一个整体时间线贯穿前后。

章节结构要求

每个章节应包含:

  1. 开篇段落:简要介绍本章内容和学习目标
  2. 文字论述:以文字论述为主,适当配上公式和 ASCII 图说明。如有数学公式,用 latex. 要有 rule-of-thumb
  3. 本章小结:总结关键概念和公式
  4. 常见陷阱与错误 (Gotchas):每章包含该主题的常见错误和调试技巧