v2_humanoid_navigation_tutorial

Humanoid 室内导航算法公开课

定位：仅讨论算法方案（从原理到实操细节），不讨论训练方法（loss、schedule、分布式训练等）与不讨论硬件部署（传感器选型、算力盒子、散热与电源等）。 术语约定：

OCC/Occ：指3D 占据建模与占据栅格/体素/隐式场（occupancy）类方法。

VLA 大-小脑：以视觉-语言-行动模型为“大脑（思考/规划）”，以轻量反射/控制脑为“小脑（反射/稳定器）”的混合架构。

读者：AI 科学家、资深工程师与中厂 infra 同学。

目标：在1B/10B 两档模型下，从零起步完成室内导航算法方案（含人形跟踪、脸部注册、避障、语义/语言导航、进阶场景），并落到数据方案：自采 + 合规抓取（优先官方 API 与 CC 授权）+ 开源数据 + 合成与数据治理。

目录（Chapters & Sections）

chapter1.md — 导论与范围

1.1 任务定义：Humanoid 的“室内导航”边界与不做什么
1.2 输入/输出接口（算法视角）：传感、状态、地图、行动原语
1.3 典型场景与难点清单（家庭/办公室/商场/医院）
1.4 评估维度概览：成功率、路径次优比、碰撞率、时延、能耗代理指标
1.5 系列结构与阅读路径（基础→传统→OCC→VLA→数据→评测）

chapter2.md — 形式化与指标

2.1 状态/观测/动作空间的形式化（POMDP/决策过程）
2.2 地图表示：拓扑/度量/语义/占据/混合图
2.3 任务模板：点到点、语义目标、社交约束、时限约束
2.4 指标与基准：SR/PL/NE/CR/Inference Latency/Token Budget
2.5 离线与在线评测协议（A/B、shadow、灾难回退）

chapter3.md — 系统总览：分层与数据流

3.1 感知→建图定位→理解→规划→控制：分层职责
3.2 同步与缓存：多流时间对齐、时延补偿、策略滑窗
3.3 语义记忆与长期地图：Graph Store 与检索接口
3.4 安全护栏与故障处理（算法级）：Fallback、Safe Stop、慢车道
3.5 可插拔策略：传统 / OCC / VLA 的装配位

chapter4.md — 传感输入与多摄算法（不谈硬件）

4.1 单/双/多摄像头观测模型与基线误差
4.2 时间同步与漂移建模（算法层：时钟偏差估计、滑动校正）
4.3 外参/内参标定的算法问题（PnP、BA、手眼关系求解）
4.4 多摄时空融合：视锥覆盖、冗余融合、异常视角剔除
4.5 IMU/里程计/ToF/深度的算法级融合接口

chapter5.md — 人形与行人跟踪（Humanoid/Person Tracking）

5.1 基础：检测→ReID→多目标跟踪（MOT）数据关联
5.2 三维姿态/骨架估计与步态先验（用于社会距离与礼让）
5.3 长时遮挡与再识别：轨迹拼接、外观-运动联合代价
5.4 人群集/镜面/弱光场景的鲁棒化
5.5 与导航的耦合：动态体积约束、社交导航代价

chapter6.md — 人脸检测与注册（合规与隐私优先）

6.1 用途边界与合规提示（显式同意、最小化、脱敏缓存）
6.2 脸部检测与关键点、姿态估计
6.3 向量化注册与身份别名（本地白名单 + 时间衰减）
6.4 误识与攻击防护（活体、口罩/角度鲁棒、对抗样本）
6.5 在导航中的角色：接入控制、VIP 礼让、语义指令消歧

chapter7.md — 动态障碍物检测与避障

7.1 几何避障：光流/深度/占据增量
7.2 学习型可通行性估计（Traversability）
7.3 速度障碍/避碰优化（VO/ORCA/Model Predictive Checks）
7.4 台阶/坡道/玻璃/反光/地毯的特殊处理
7.5 预测轨迹与让行策略（人群交互）

chapter8.md — 传统导航方案（SLAM + 栅格/图 + 规划）

8.1 VIO/SLAM：特征/直/语义增强的定位与建图
8.2 栅格地图与代价地图：动态层 + 衰减 + 通道分层
8.3 路径规划：A/D/Hybrid A/RRT/轨迹优化（CHOMP/MPPI）
8.4 全局-局部层级与重规划策略
8.5 与语义的轻耦合：地标锚点与禁止区

chapter9.md — OCC 方案：3D 占据与隐式场重建

9.1 占据网格/TSDF/ESDF/体素 + 神经隐式（SDF/NeRF/3DGS）
9.2 单目/多目/事件相机到 3D 占据的算法路径
9.3 动态更新：时序占据、流场、记忆压缩与蒸馏到轻图
9.4 由占据直达可通行性与风险场
9.5 占据驱动的规划：体素 A* 与体素级优化

chapter10.md — VLA 大-小脑混合导航

10.1 体系：大脑（感知-语言-规划）、小脑（反射/稳定器）
10.2 任务解析：NL→Symbolic Subgoals（层级子目标合成）
10.3 记忆与检索：场景图 + 语义地标 + 语言缓存
10.4 决策护栏：可验证子计划、置信触发与安全退
10.5 与传统/OCC 的互操作（Hybrid Stacking）

chapter11.md — 语义/语言导航与开集目标

11.1 Open-Vocabulary 识别与短语分割（CLIP/Caption→Mask）
11.2 语言约束路径：软/硬约束融合到代价图
11.3 含糊指令消歧：对话澄清 → 子目标竞赛
11.4 多轮任务：打断/恢复/优先级栈
11.5 隐私与合规提示（语音/文本数据最小化）

chapter12.md — 规划与控制（算法实现，不涉硬件）

12.1 行动原语库：转身/巡航/贴边/穿门/电梯/上下楼
12.2 轨迹生成：多目标/多约束优化（速度、舒适、能耗代理）
12.3 鲁棒控制：反馈线性化、MPC、障碍约束
12.4 抖动与迟滞的消除：速度采样与抑振
12.5 安全停止与软着陆策略（Fail-Safe）

chapter13.md — 数据方案总览：自采 + 合规抓取 + 开源 + 合成

13.1 数据目标与配比：几何/语义/语言/规划/交
13.2 合规原则：授权、ToS、机器人协议、PII/人脸处理
13.3 开源数据优先级与复用策略（“尽量用上别人洗好的包”）
13.4 自采闭环：需求→脚本→质检→治理→版本→回灌
13.5 合成/仿真补齐长尾与稀缺样本

chapter14.md — 合规抓取：以 YouTube 为例（API 优先）

14.1 检索策略：关键词、频道/播放单、地域与元数据过滤
14.2 官方 API 流程：列表→详情→字幕→许可检查（CC 优先）
14.3 片段采样：镜头切分、运动强度/场景多样性打分
14.4 航迹可用性预测：是否可用于“视频→轨迹”的先验评估
14.5 法务与速率：速率限制、配额预算、删除/撤回机制

说明：本章仅提供合规流程与算法要点，不提供任何绕过授权或反爬策略。

chapter15.md — 视频→轨迹数据集构建（单/双/多摄 + IMU）

15.1 目标：从视频估计相机轨迹与尺度
15.2 SfM/VIO/SLAM 管线：特征、匹配、BA、尺度恢复
15.3 多摄同步与外参求解：时序对齐、鲁棒双向 BA
15.4 品质评估：ATE/RPE/内点率/重投影误差/闭环得分
15.5 轨迹平滑与时空重采样，导出统一 Schema

chapter16.md — 多摄视频与跨视角融合数据集

16.1 采样与抽帧：覆盖视锥与遮挡互补
16.2 视图选择与冗余消除：信息增益与互信息
16.3 时空对齐：音频/画面/IMU 协同校准
16.4 跨视角一致性标注与一致性损失（推理时校验）
16.5 多摄到占据：体素融合与深度一致性检查

chapter17.md — 数据治理：清洗、去重、质量与脏数据过滤

17.1 质量维度：清晰度、抖动、曝光、遮挡、语义密度
17.2 去重与相似：感知哈希/向量索引/跨模态重复
17.3 噪声与异常：时间错位、字幕错配、时钟漂移检测
17.4 敏感信息与隐私：人脸/牌照/徽标的自动脱敏
17.5 审计与可追溯：数据卡、谱系（lineage）与版本化

chapter18.md — 合成数据：仿真/生成式与域桥接

18.1 仿真场景库设计：户型分布、材质、多光照
18.2 语义/语言任务的程序合成（目标、约束、对话）
18.3 轨迹与占据的自动标注与一致性校验
18.4 生成式增强：文本转场景、图像到深度/法线/Mask
18.5 现实-仿真域桥：风格回归、几何一致性与扰动注入

chapter19.md — 1B 与 10B 两档算法方案：取舍与蓝图

19.1 目标能力与预算：延迟、内存、边端可行性
19.2 1B 档：模块化 + 轻语义（CLIP 级）+ 传统/OCC 为主
19.3 10B 档：VLA 主导 + 丰富语义与多轮交互 + OCC 融合
19.4 两档的数据需求与治理不同侧重
19.5 推理图谱与缓存：Token 预算、子计划分块与复用

chapter20.md — 进阶场景库与策略

20.1 升降梯/旋转门/闸机：状态观测与交互协议
20.2 玻璃门/镜面/透明物体：占据不确定性与光学陷阱
20.3 夜间/突发照明变化：鲁棒感知与紧急降级
20.4 狭窄通道会车与社交导航
20.5 任务级容错：中断、恢复、优先级与多任务调度

chapter21.md — 评测基准、离线 A/B 与在线监控（算法侧）

21.1 离线回放评测：日志→重放→决策重评分
21.2 合成与真实混评：配比与权重
21.3 在线指标与告警：安全事件、近碰、急停率
21.4 长期回归测试与地图演化一致性
21.5 发布与回滚的算法闸门（Gating）

chapter22.md — 实操清单与落地骨架

22.1 仓库结构与模块边界（仅算法）
22.2 配置/协议/Schema：地图、轨迹、语义、事件
22.3 伪代码模板：感知、OCC、VLA 调度器、规划器
22.4 数据流水线脚手架：抓取→质检→治理→导出
22.5 常见位与 Debug 手记（算法角度）

appendixA.md — 术语表与符号约定

A.1 记号与缩写
A.2 度量/评测公式
A.3 常见数据格式对照（轨迹/占据/语义图）

appendixB.md — 数据 Schema 与质量门槛模板

B.1 轨迹条目 Schema 与质量阈值
B.2 多摄样例与一致性检查清单
B.3 隐私/敏感字段最小化模板

appendixC.md — 法务与合规要点（工程必读）

C.1 授权矩阵与来源审计
C.2 删除请求与可撤回机制
C.3 日志最小化与访问控制（算法侧）

推荐阅读顺序

1 → 2 → 3（总览）→ 8（传统）→ 9（OCC）→ 10–11（VLA/语义）→ 7（避障）→ 5–6（跟踪/人脸）→ 12（规划控制）→ 13–18（数据与治理）→ 19（1B/10B）→ 20–21（进阶与评测）→ 22（骨架）→ 附录。

提示：每个 Chapter 将含可复用的算法接口、伪代码与数据清单，结合自采/源/合成三线推进，确保能在1B 与 10B 两档约束下落到可运行的导航算法方案。