v2_humanoid_navigation_tutorial

第 19 章 — 1B 与 10B 两档算法方案：取舍与蓝图

开篇段落

至此，我们已经系统性地解构了人形机器人室内导航的各个技术栈，从底层的传感与几何重建，到上层的语义理解与规划。然而，理论的丰富性往往伴随着实践的复杂性。在资源受限的真实世界中，任何技术决策都是一场关于性能、成本、功耗与开发周期的精妙平衡。本章将扮演“系统架构师”的角色，将前面章节的“积木”组装成两套完整、自洽且具有代表性的算法方案蓝图：1B（十亿参数）规模的“务实执行者”与10B（百亿参数）规模的“通用认知体”。我们将深入剖析这种方案在设计哲学、能力边界、数据食谱和推理策略上的根本差异，旨在为您提供一份清晰的、可落地的技术路线图。学完本章，您不仅能理解两种方案的“形”，更能洞悉其“神”——即在不同约束下，如何进行优雅的技术取舍，构建出满足特定需求的导航系统。

19.1 目标能力与预算：延迟、内存、边端可行性

选择 1B 还是 10B 方案，不仅是模型大小的选择，更是对机器人“灵魂”的定义。它决定了机器人是更像一台高效的自动化设备，还是一个具备初级推理能力的智能伙伴。这个顶层决策将直接辐射到硬件选型、部署架构乃至商业模式。

维度	1B 档方案 (Pragmatic & Robust)	10B 档方案 (Generalist & Intelligent)
核心哲学	确定性 & 模块化 (Deterministic & Modular)：每个模块职责单一、可独立验证和优化。系统整体行为可预测	涌现性 & 统一性 (Emergent & Unified)：依赖大模型的泛化能力和世界知识，在统一的认知核心下涌现出复杂行为。
能力边界	封闭集任务 (Closed-set Tasks)：精确执行“去厨房第二个柜子拿水杯”这类结构化指令。擅长重复性、高精度的路径执行。	开放集与常识任务 (Open-set & Common Sense Tasks)：理解“我有点累，想在沙发上休息一下”并推理出需要导航到客厅的沙发旁。
交互范式	命令-执行 (Command-Execute)：通过 API 或简单语音模板触发预定义技能。	对话-澄清 (Dialogue-Clarify)：支持多轮自然语言交互，能主动提问以消除歧义（“哪个沙发？靠窗的那个吗？”）。
推理延迟	- 反射通路 (避障): < 50ms - 局部规划: < 100ms - 全局重规划: < 1s	- 小脑反射: < 50ms - VLA 大脑思考 (单轮): 1s - 5s+ (依赖于输入 Token 长度和模型复杂度)
内存占用	可控 (Manageable)：模型总和约 4-8GB，可部署于高性能边缘计算平台（如 NVIDIA Jetson AGX Orin）。	巨大 (Demanding)：模型加载后需 24-64GB+ 的 RAM/VRAM，通常需要“云-边-端”混合部署架构。
部署范式	边缘优先 (Edge-First)：核心计算在机器人本体完成，延迟低，不依赖网络连接，数据隐私性好。	云端大脑 (Cloud Brain)：VLA 核心运行在云端服务器，通过网络与机器人本体的“小脑”通信。对网络稳定性要求高。
鲁棒性来源	算法的数学完备性：如 VIO 的优化理论、A* 算法的可达性保证。故障隔离和调试相对容易。	数据的多样性与模型的泛化能力：能处理未见过的场景和物体，但也可能因数据偏见产生“幻觉”或非预期行为。

Rule-of-thumb: 1B 方案是产品化的基石。它让你能够快速交付一个在特定场景下 99.9% 可靠的导航功能。10B 方案是智能化的未来。它探索的是“通用助手”的可能性，当前更适合研发探索和对延迟不敏感的高价值场景。一个明智的商业路径通常是：用 1B 方案实现商业闭环，用其产生的利润和数据去哺育 10B 方案的演进。

19.2 1B 档：模块化 + 轻语义 + 传统/OCC 为主

此方案是工业界和学术界几十年研究成果的结晶，强调“各司其职，无缝协作”。

架构蓝图（精化版）:

                      +-----------------------------+
                      |  用户指令 ("去书桌")          |
                      +---------------+-------------+
                                      |
                                      v
+-----------------+     +-----------------------------+      +---------------------------+
| 传感器           |---->| 轻量级语义理解 (CLIP/BERT)    |----->| 目标点解析器                |
| (多摄/IMU/速计)|     | Embedding & Similarity Search|      | "书桌" -> map_coords(x,y,θ) |
+-----------------+     +-----------------------------+      +-------------+-------------+
        |                                                                    | (Global Goal)
        |                                                                    v
+-----------------+     +-----------------------------+      +---------------------------+
| 视觉里程计/SLAM  |---->| 地图管理器 (Grid/Voxel)       |----->| 全局路径规划器 (A*/RRT*)    |
| (VINS/ORB-SLAM3)|     |                             |      | - Costmap2D (Static Layer)|
+-------+---------+     +-------------+---------------+      +-------------+-------------+
        | (Pose)                      ^                                      | (Global Path)
        |                             | (Layers Update)                      v
+-----------------+     +-----------------------------+      +---------------------------+
| 实时感知模块      |---->| 代价地图层 (Dynamic Layers) |----->| 局部轨迹规划器 (DWA/MPC)    |
| - 障碍物 (Depth/Seg)|     | - Obstacle Layer            |      | - 实时避障                  |
| - 人形 (YOLO/SORT)  |     | - Inflation Layer           |      | - 速度/加速度约束           |
+-----------------+     | - Social Layer (from Human)|      +-------------+-------------+
                      +-----------------------------+                      | (Velocity Cmd)
                                                                           v
                                                                    +--------------+
                                                                    | 底层控制器    |
                                                                    +--------------+

核心组件深度解析:

定位与建图 (SLAM):
- 首选 VIO: 视觉惯性里程计（如 VINS-Fusion）是该方案的基石。IMU 提供了高频的运动估计和重力方向，能有效解决纯视觉 SLAM 在弱纹理、快速运动场景下的尺度漂移和跟踪失败问题。输出是高频（~100Hz）的机器人 6-DoF 位姿和稀疏/半密集的环境地图。
感知与世界建模:
- 轻量级语义: 这里的“语义”是工具性的。使用 CLIP 将用户指令（如“沙发”）编码为向量，然后在预先构建的或实时检测到的物体视觉特征向量库中进行相似度搜索，从而确定目标位置。这是一种“基于识别的语义”，而非“基于理解的语义”。
- 代价地图 (Costmap2D): 这是传统导航的核心数据结构。它是一个 2.5D 的世界表示，将三维世界“压平”到二维栅格上进行规划。
  - Static Layer: 由 SLAM 构建的静态地图，一次生成，很少更新。
  - Obstacle Layer: 由深度传感器（ToF/双目）或分割网络实时更新，表示动态障碍物。
  - Inflation Layer: 在障碍物周围膨胀出一片缓冲区，确保机器人路径不会过于贴近障碍物。膨胀半径 $r_{inflation}$ 是一个关键的可调参数。
  - Social Layer: 专门处理人。根据检测到的人的位置和速度，在其周围生成一个随时间变化的、非对称的代价区域，鼓励机器人从人身后绕行，而非面前。
规划 (Hierarchical Planning):
- 全局规划: 在代价地图上，使用 A* 或其变种（如 Hybrid A*，考虑车辆运动学约束）找到一条从当前位置到目标点的最优路径。计算开销较大，通常在目标点改变或路径大段被阻塞时才重新计算。
- 局部规划: 在一个以机器人为中心的小窗口内（如 5m x 5m），高频（~10-20Hz）运行。它模拟多条候选轨迹（如 DWA/TEB），并根据一个目标函数进行打分。目标函数通常是多项加权和： $J(v, \omega) = \alpha \cdot \text{goal_dist}(v, \omega) + \beta \cdot \text{path_align}(v, \omega) + \gamma \cdot \text{obstacle_dist}(v, \omega)$ 其中 $v, \omega$ 是线速度和角速度，$\alpha, \beta, \gamma$ 是权重，分别代表“朝向目标的程度”、“与全局路径的对齐度”和“与障碍物的距离”。
OCC 的角色:
- 在 1B 方案中，OCC（如 OctoMap）作为代价地图的“3D 增强插件”。它可以用来检测传统 2D 激光雷达或投影深度无法感知的障碍物，如桌子边缘、悬空的柜子。其输出的 3D 占据信息被投影到代价地图的一个额外层上，为 2D 规划器提供更丰富的避障信息。

19.3 10B 档：VLA 主导 + 丰富语义与多轮交互 + OCC 融合

此方案拥抱大模型的强大威力，追求的是一种“思考驱动行动”的范式。

架构蓝图 (大-小脑)：

+-------------------------------------------------------------------------+
| 用户指令: "帮我把桌上的那个苹果拿过来，小心别碰到旁边的水杯"                  |
+------------------------------------+------------------------------------+
                                     |
+----------------------------------+ | +-----------------------------------+
| 实时多模态输入 (Live Multimodal Input) | | 记忆系统 (Memory System - Vector DB & Graph) |
| - 多视角图像 (Image Tokens)        | | - 场景图: (apple, on, table), (cup, next_to, apple) |
| - IMU/里程计 (Proprioception)      | | - 历史对话/行动 (Episodic Memory)            |
| - 用户语音转文本 (Text Tokens)     | | - 世界知识 (Pre-trained Knowledge)         |
+----------------------------------+ | +-----------------------------------+
                  ^                  |                   ^ (Retrieval)
                  | (Query)            |                   |
+----------------------------------v-----------------------------------+
|                           VLA 大脑 (10B+ Core)                        |
|                     (Cross-modal Attention & Reasoning)               |
|                                                                     |
|  --> 思考过程: "目标是苹果。约束是避开水杯。需要先导航到桌子前，然后执行抓取" |
|                                                                     |
|  --> 输出: 结构化子目标序列 (Sequence of Symbolic Sub-goals)           |
|      [ NAVIGATE_TO(target='table', constraint='avoid_cup_zone'),      |
|        GRASP(object='apple', grasp_pose=...), ... ]                    |
+----------------------------------+------------------------------------+
                                     | (Sub-goal[0])
                                     v
+-------------------------------------------------------------------------+
|                          小脑 (Reflexive Controller)                      |
|                                                                         |
|  --> 解析: NAVIGATE_TO(target='table', constraint='avoid_cup_zone')       |
|  --> 动作生成:                                                          |
|      1. 从记忆或实时感知中定位 'table' 和 'cup_zone'。                    |
|      2. 在实时 3D OCC (Chapter 9) 中将 'cup_zone' 设为高风险区域。       |
|      3. 调用运动规划器 (MPPI/MPC) 在此 3D 风险场中生成平滑、安全的轨迹。   |
|  --> 输出: 底层电机指令 (Velocity/Torque Commands)                        |
|  --> 状态反馈: "Sub-goal Succeeded/Failed" -> to VLA Brain               |
+-------------------------------------------------------------------------+

核心组件深度解析:

大脑 (VLA Core):
- 统一表征: VLA 的核心思想是将图像、文本、状态等所有信息都转换为统一的 Token 序列，并使用一个巨大的 Transformer 模型进行联合建模。这使得模型能够学习到跨模odal的深刻关联，例如将“桌上”这个词与图像中桌子像素区域对应起来。
- 链式思考与规划 (Chain-of-Thought Planning): VLA 不直输出动作，而是生成一个符号化的行动计划。这个计划是可解释、可验证的。例如，在执行 GRASP(apple) 之前，系统可以检查前提条件（如机器人是否在桌子旁，机械臂是否可达）是否满足。
- 世界模型: VLA 的强大之处在于其内部隐式地学习了一个“世界模型”。它知道“水杯是易碎的”、“门通常是用来通过的”，这些常识知识指导其做出比纯几何规划更合理的决策。
小脑 (Reflexive Controller):
- 技能执行器 (Skill Executor): 小脑维护着一个技能库，每个技能对应 VLA 输出的一个符号。例如，NAVIGATE_TO 技能会激活基于模型的控制器（如 MPC），而 FOLLOW 技能则会激活一个基于视觉伺服的控制器。
- 实时 3D 世界模型: 小脑不使用 2.5D 的代价地图，而是直接在一个动态更新的 3D 占据场（如 TSDF/Nerf-like a la Chapter 9）中进行规划。这让它能自地处理复杂的三维环境，如绕过悬挂的灯、从桌子底下穿过等。
- 安全护栏: 小脑是最后一道安全防线。即使大脑发出了一个有潜在危险的指令（如穿墙），小脑的物理碰撞检测和运动学约束也会阻止其执行，并向大脑报告失败。
记忆系统:
- 语义场景图 (SSG): 这是一个动态图数据库，节点是物体（cup, table），边是它们之间的关系（on, next_to）。它由 VLA 或专用的感知模型持续更新，为 VLA 的长期推理提供结构化的上下文。
- 情景记忆 (Episodic Memory): 存储了机器人过去的经历，如 (timestamp, location, observation_embedding, action, outcome)。当 VLA 遇到新问题时，它可以从记忆库中检索相似的经历，进行类比学习（“上次我在这里被卡住了，这次应该换条路”）。

19.4 两档的数据需求与治理不同侧重

数据维度	1B 档方案	10B 档方案
数据哲学	“少而精” (Less is More)：追求高质量、高信噪比的标注数据。数据成本主要在人力标注。	“大而全” (More is More)：追求数据规模和多样性，容忍一定程度的噪声。数据成本主要在计算和存储。
核心数据类型	- 几何真值: `(RGBD, IMU, Action) -> Ground-Truth Trajectory`。通过动作捕捉系统 (Mocap) 或高精度 SLAM 后处理获得。 - 语义标注: `Image -> Pixel-perfect Segmentation Masks` 或 `Bounding Boxes`。由专业团队标注。	- 网络数据流: `(YouTube Video, ASR Transcript)`，`(Webpage Image, Alt-text)`。数据是“野生的”，核心技术是对齐和过滤。 - 具身轨迹: `(Ego-centric Video, Actions, Task Description)`。来自大规模人机遥操作或机器人自主探索。
治理重心	质量控制与版本管理：建立严格的标注规范、交叉验证流程和数据版本控制统（如 DVC）。核心是保证标注的一致性。	合规、去偏与可追溯性：建立自动化的数据来源审计、PII（个人可识别信息）脱敏、偏见检测（如场景、物体、肤色分布）流水线。核心是保证数据的合规性与多样性。
合成数据角色	补全覆盖率 (Coverage Completion)：生成在真实世界中难以采集的 corner cases，如传感器噪声、极端光照、罕见障碍物。	学习因果关系 (Causal Learning)：在物理仿真引擎中（如 Isaac Sim）进行交互式学习。例如，通过推、拉、扔等动作学习物体的物理属性（重量、摩擦力）和行为的因果链，这是互联网数据无法提供的。

19.5 推理图谱与缓存：Token 预算、子计划分块与复用

1B 档方案 (静态流水线):

推理图谱: 一个固定的有向无环图 (DAG)，数据从传感器节点流向控制输出节点。每个节点的计算负载相对固定，系总延迟是可预测的。
优化：可以通过模型剪枝、量化、算子融合等方式对每个模块进行独立优化。缓存主要针对计算结果，如已生成的全局路径。

10B 档方案 (动态与事件驱动):

Token 预算管理: 这是 VLA 方案的经济学核心。VLA 的计算成本与输入 Token 数量的平方（或更高）成正比。
- 视觉 Token 节流: 绝不将原始视频流（如 30fps）直接输入 VLA。策略包括：
  1. 关键帧选择: 仅在场景发生显著变化时，才选择一帧送入 VLA。
  2. 视觉摘要器 (Visual Abstractor): 使用一个小的（~1B）模型（如 Perceiver Resampler）将高分辨率图像编码为一小组（如几十到几百个）信息密集的视觉 Token，再送给 VLA 大脑。
  3. 目标为中心的裁剪: 只将与任务相关的物体区域（如用户提到的“桌子”）的 Token 送入 VLA。
“按需思考”的推理图:
- VLA 大脑默认处于“睡眠”状态。只有当以下事件发生时才被“唤醒”：
  1. 接收到新的用户指令。
  2. 小脑报告当前子目标执行失败（如路径被堵死）。
  3. 环境出现重大意外变化（如突然出现火警）。
  4. 当前子目标已完成，请求下一个指令。
- 在 VLA 思考的几秒钟内，小脑必须继续执行默认行为（如保持原地、执行低速避障），确保机器人不会“卡死”。
技能与子计划缓存 (Skill & Sub-plan Caching):
- VLA 生成的计划 [A, B, C] 会被缓存。如果下次任务需要从 A 到 B，系统可以跳过 VLA 推理，直接从缓存中检索并由小脑执行。
- 更进一步，小脑的成功执行轨迹（即一系列 (状态, 动作) 对）也可以被“蒸馏”成一个轻量级的策略网络，形成一个可复用的“技能”。这是一种在线学习和能力沉淀的机制。

本章小结

章我们绘制了两幅截然不同但同样重要的蓝图，它们分别代表了人形机器人导航的现在与未来：

1B 方案：是工程的艺术。它通过精巧的模块化设计，将复杂问题分解为一系列可控的子问题，构建了一个稳定、高效、可信赖的导航系统。它是当前实现产品化、规模化部署的首选路径。它的核心是“组合”。
10B 方案：是智能的探索。它押注于大模型的涌现能力，试图构建一个具备通用理解和推理能力的认知核心，让机器人能像人一样“思考”和“规划”。它是通往通用人工智能（AGI）在具身智能领域的重要阶梯。它的核心是“涌现”。

最终的技术选型并非非黑即白。一个成熟的团队可能会采用混合策略：以 1B 方案作为稳定的基座，同时将 10B VLA 模型作为一个可选的“语义大脑”或“任务规划顾问”，逐步赋能机器人更高级的智能。理解这两种方案的本质区别与内在联系，是每一位机器人算法工程师迈向系统架构师的关键一步。

常见陷阱与错误 (Gotchas)

架构混淆 (Architecture Mismatch):
- 陷阱: 试图在 1B 的模块化架构中，强行塞入一个 10B 的 VLA 模型来替代某个小模块（如目标检测），期望获得巨大提升。
- 真相: 这样做通常得不偿失。10B 模型的巨大延迟会破坏 1B 架构的实时性，形成系统瓶颈。VLA 的价值在于端到端的联合推理，而非作为“超大号分类器”。正确的融合方式是让 VLA 作为上层规划器，与整个 1B 系统协同工作。
忽视小脑的复杂性 (Underestimating the Cerebellum):
- 陷阱: 认为 10B 方案中，所有智能都在“大脑”，而“小脑”只是个简单的电机驱动器。
- 真相: “小脑”本身就是一个高度复杂的实时机器人系统。它需要处理高频的多传感器融合、动态 3D 景重建、纳秒级的碰撞检测、以及非线性模型预测控制（MPC）等一系列难题。一个强大的小脑是 VLA 大脑想法能够安全、平稳落地的物理基础。
数据的“诅咒” (The Curse of Data):
- 陷阱: 为 10B 模型准备数据时，陷入了 1B 时代的“标注洁癖”，花费巨资追求完美的像素级标注。
- 真相: 10B 模型需要的是规模和多样性。与其标注 1 千张完美的图片，不如从网络上合规获取 1 百万张带有弱标签（如 alt-text）的图片。数据策略的重心必须从“精耕细作”转向“工业化流水线”。
对推理成本的盲目乐观 (Inference Cost Blindness):
- 陷阱: 设计交互时，假设 VLA 可以像查字典一样被频繁调用，导致机器人大部分时间都在“思考”中，反应迟钝。
- 真相: 每一次 VLA 的 full pass 推理都是一次昂贵的计算事件。必须将 VLA 的调用视为“稀缺资源”来管理。优秀的系统设计会将 99% 的时间交由高效的小脑处理，只在 1% 的关键决策点上求助于大脑，实现智能与效率的平衡。这是从算法原型到鲁棒产品的惊险一跃。