车规级全双工语音座舱系统:端到端生产方案(面向 AI Scientist / 中厂 Infra 工程师)

读者画像与预备知识

  • 面向角色:AI/ASR/TTS 研究、语音/多模态工程、车载中间件/系统工程、后端/边缘推理、HMI/IVI。
  • 预备知识:流式语音建模、VAD/diarization、回声消除、LLM/工具调用、嵌入式/RTOS/Linux/QNX、CAN/LIN/以太网、Android Automotive(AAOS)或等效平台。

项目时间线(贯穿式里程碑总览)

  • M0–M1:需求澄清 & 仿真台架
  • 目标/非目标、延迟与功耗预算、数据合规边界。→ 详见 chapter1, chapter2
  • M1–M2:MVP 语音链路(单区、半双工)
  • 远场拾音 + AEC/NS/AGC、VAD、ASR→文本→TTS,支持基本车控。→ chapter3, chapter8
  • M2–M3:多麦阵 + 分区与声纹注册
  • 前后排音区、说话人分离/声纹、免唤醒试点。 chapter6, chapter10
  • M3–M4:全双工(并行双输入/输出头) & 免唤醒稳定化
  • 抢话/打断、回声参考、音频路由与优先级。→ chapter3, chapter2
  • M4–M5:多模态(车内/外摄像头 + 视觉)
  • VLM 融合、驾驶行为与情境理解。→ chapter4, chapter9
  • M5–M6:语言扩展 & 数据集落地
  • 普通话/主要方言/英日欧语,IPA 兜底与合规审计。→ chapter7, chapter13
  • M6–M7:电话/娱乐系统/外部声环境
  • HFP/VoIP、后排娱乐打通、环境声感知。→ chapter11, chapter10, chapter12
  • M7–M8:观测性、评测与A/B
  • 端到端指标、回放框架、红队/故障注入。→ chapter14, chapter17
  • M8–M10:量产化与运维
  • 车规安全/合规、OTA、Runbook。→ chapter15, chapter16, chapter18

章节与小节索引

[chapter1.md] 总览与路线图

  • 1.1 目标与非目标(体验、KPI、延迟/功耗/BOM)
  • 1.2 典型场景:前排、多乘员、嘈杂/高速/地库
  • 1.3 交互范式:免唤醒、全双工、抢话/打断、工具调用
  • 1.4 端到端数据/模型/工程工效学分层
  • 1.5 时间线与依赖图(与各章里程碑映射)

[chapter2.md] 车规级硬件与系统平台

  • 2.1 麦克风阵列与布局(A/B 柱、顶棚、靠背;阵列设计)
  • 2.2 SoC/DSP/NPU 拓扑与功耗/温控预算
  • 2.3 OS/中间件:AAOS/QNX/Linux、Audio HAL、车载路由
  • 2.4 声学前端:AEC/NS/AGC/Beamforming/BSS
  • 2.5 音频优先级路由矩阵(TTS、电话、媒体、提示音)
  • 2.6 可靠性:启动时序、故障降级、持久化与看门狗

[chapter3.md] 端到端语音-语音模型(可混入文本,支持全双工)

  • 3.1 并行双输入头:语音流 +(可选)文字流对齐增智
  • 3.2 并行双输出头:语音流 +(可选)文字副产物
  • 3.3 流式解码与分块对齐、打断策略与延迟优化
  • 3.4 Echo Cancellation 结合参考信号的对端建模
  • 3.5 工具/函数调接口与车控动作安全网
  • 3.6 训练目标:多任务(ASR/TTS/对话/指令跟随/RLHF)
  • 3.7 推理编排:端侧/车边缘/云协同与模型热切换

[chapter4.md] 多模态:视觉 + 语音

  • 4.1 车内摄像头(乘员/手势/注视)与同步
  • 4.2 车外摄像头(道路/行人/警示)与场景理解
  • 4.3 视觉语言对齐(VLM)与语音接口
  • 4.4 视觉增强的对话状态与注意力路由
  • 4.5 隐私与合规(视频最小化、边缘推理留边)

[chapter5.md] 对话状态管理与“可控智能”

  • 5.1 会话内记忆、跨行程记忆与可撤销机制
  • 5.2 任务/计划/子任务分解(Planner/Executor)
  • 5.3 工具选择与安全沙箱(车控、导航、媒体)
  • 5.4 免唤醒触发器与环境事件驱动
  • 5.5 人格/音色/风格控制与策略融合

[chapter6.md] VAD、Speaker Diarization、音区与声纹

  • 6.1 VAD:多通道/低延迟门限与错检/漏检优化
  • 6.2 Diarization:EEND/x-vectors/TS-VAD 对比
  • 6.3 音区(front/rear/left/right)路由与拾音切换
  • 6.4 声纹注册/更新/撤销(用户主动同意)
  • 6.5 多说话人并发与权限模型(家长/儿童/访客)

[chapter7.md] 多语言与方言、IPA 兜底

  • 7.1 中文(普/粤/吴/闽/客…)与口音鲁棒
  • 7.2 英/日/欧主流语言支持策略
  • 7.3 数据增广与跨语言迁移
  • 7.4 IPA 转写/对齐与文字能力映射
  • 7.5 兜底链路的合规审计与可观测性

[chapter8.md] 车辆状态与车控集成

  • 8.1 车控域:CAN/LIN/FlexRay/以太网(AVB)总览
  • 8.2 Vehicle HAL/UDS/诊断/OTA 钩子
  • 8.3 全车状态建模(黑板/实体组件/订阅流)
  • 8.4 语音→车控函数调用协议(幂等/回滚/防抖)
  • 8.5 安全栅栏:SOTIF/权限校验/双通确认

[chapter9.md] ADAS/自动驾驶系统交互

  • 9.1 与策略/感知/定位模块信息边界
  • 9.2 车道/限速/障碍语义对话与播报
  • 9.3 接管请求/注意力管理/人因工程
  • 9.4 辅助驾驶中的语音优先级与去干扰
  • 9.5 事件回放与责任链路记录

[chapter10.md] 多区域与后排娱乐系统

  • 10.1 分区会话与多路 TTS 渲染
  • 10.2 后排娱乐/投屏/耳机与路由隔离
  • 10.3 儿童模式/家长控制
  • 10.4 多乘员冲突协调与轮询
  • 10.5 车内社交场景(对讲/共享媒体控制)

[chapter11.md] 电话接入与特殊处理

  • 11.1 蓝牙 HFP / VoIP / eSIM 管线
  • 11.2 来电识别、静音穿透、回声与双端增益
  • 11.3 通话期间的助理旁路与边说边做
  • 11.4 录音/提示与合规

[chapter12.md] 外部声环境与乘员状态

  • 12.1 环境声分类(警笛/鸣笛/施工)
  • 12.2 乘员情绪/疲劳/压力从声线与视觉估计
  • 12.3 嘘寒问暖与健康建议的安全边界
  • 12.4 误报/滥用/隐私保护

[chapter13.md] 数据:获取、合成、标注与合规

  • 13.1 实车采集与半实物在环(HIL)仿真
  • 13.2 多语言/方言/情境/噪声覆盖
  • 13.3 合成数据(TTS→反向链、混合说话人)
  • 13.4 标签与质量:分段/齐/说话人/IPA
  • 13.5 数据主权、跨境流动与最小可用策略

[chapter14.md] 评测与指标体系

  • 14.1 端到端指标:唤醒漏/误、ASR、TTS、对话成功率
  • 14.2 全双工特指:打断成功率、恢复时间、主观听感
  • 14.3 多语言/方言/噪声/车速分桶实验
  • 14.4 AB 与在线评测、主观听感面板
  • 14.5 回放基准库与持续回归

[chapter15.md] 推理与部署(边缘-车端-云协同)

  • 15.1 模型切片与蒸馏、量化与缓存
  • 15.2 车端调度:RT 优先级、功耗/温控守恒
  • 15.3 联邦/增量学习与隐私
  • 15.4 断网/弱网/离线兜底
  • 15.5 OTA 策略与灰度回滚

[chapter16.md] 安全、隐私、合规与车规标准

  • 16.1 ISO 26262 / SOTIF / ASPICE 概览
  • 16.2 隐私与同意:最小化、在端处理、可撤销
  • 16.3 语音/视频敏感场景与提示
  • 16.4 攻击面:提示注入、音频对抗、数据投毒
  • 16.5 合规审计与管控面板

[chapter17.md] 观测性、运维与红队

  • 17.1 Telemetry/Tracing/Structured Logs 设计
  • 17.2 端到端回放/重现/时间旅行调试
  • 17.3 SLO/SLA 与警报(体验与稳定性并重)
  • 17.4 故障注入、演练与桌面演习(GameDay)
  • 17.5 成本管控与容量计划

[chapter18.md] 生产级蓝图与 Runbook

  • 18.1 参考架构(组件/接口/数据面/控制面)
  • 18.2 常见问题清单(FAQ)与处置流程
  • 18.3 升级/回滚/密钥轮换
  • 18.4 供应链与备件/替代件管理
  • 18.5 上线清单(Go/No-Go)

[appendixa.md] 生态与组件清单

  • A.1 开源栈(ASR/TTS/VAD/diarization/AEC 等)
  • A.2 商用 SDK/芯片/中间件
  • A.3 许可与版权注意事项

[appendixb.md] 术语表与 IPA 速查

  • B.1 语音/对话/声学术语
  • B.2 IPA 映射速查与常见陷阱
  • B.3 评测与统计术语

[appendixc.md] 故障注入与应急预案

  • C.1 语音链路中断/高延迟
  • C.2 AEC 失配/啸叫
  • C.3 数据/模型回退与离线兜底