第十章：案例研究与最佳实践

本章通过四个真实的端到端案例，展示 LLM 后训练的完整实践流程。每个案例都涵盖从需求分析、数据准备、模型训练到部署监控的全链路，并详细剖析过程中的关键决策和技术细节。通过这些案例，您将学会如何将前九章的理论知识整合应用到实际项目中，掌握处理复杂工程挑战的系统方法。

本章大纲

ChatGPT 类对话系统的完整实现 - 系统架构设计 - 数据收集与预处理 - SFT 基线训练 - RLHF 优化流程 - 安全性与对齐 - 部署与监控
多模态助手的训练流程 - 模态融合架构 - 数据对齐策略 - 渐进式训练 - 跨模态能力评估 - 推理优化
领域专家模型的构建 - 领域知识注入 - 专业数据采集 - 持续学习机制 - 性能基准设计 - 知识更新策略
常见失败模式与调试技巧 - 训练不稳定诊断 - 过拟合与欠拟合 - 灾难性遗忘 - 分布偏移处理 - 调试工具链

学习目标

完成本章学习后，您将能够：

设计并实现生产级的对话系统，包括多轮对话管理和个性化优化
构建支持视觉、语音等多模态输入的统一助手模型
针对特定领域（医疗、法律、金融）定制高性能专家模型
识别和解决后训练过程中的常见问题，建立系统的调试方法论
评估不同技术路线的权衡，做出符合业务需求的架构决策

让我们从第一个案例开始，深入了解 ChatGPT 类系统的构建过程。

10.1 ChatGPT 类对话系统的完整实现

构建一个生产级的对话系统需要系统化的工程方法。本节以一个真实的企业级助手项目为例，展示从零开始构建对话系统的完整流程。该系统最终达到了日活跃用户 100 万+，平均对话轮次 8.5 轮的生产指标。

10.1.1 系统架构设计

整体架构

用户输入 → 预处理 → 安全检查 → 模型推理 → 后处理 → 响应输出
     ↑                                              ↓
     └─────────── 上下文管理（会话状态）──────────┘

关键组件设计

会话管理器

会话状态的设计直接影响系统性能和用户体验。我们采用了分层缓存策略：

L1 缓存：Redis，存储最近 1000 个活跃会话
L2 缓存：PostgreSQL，完整会话历史
状态压缩：超过 10 轮的对话自动摘要

会话状态结构：
{
  session_id: str,
  user_id: str,
  messages: List[Message],
  context_summary: str,  # 自动生成的上下文摘要
  metadata: {
    created_at: timestamp,
    last_active: timestamp,
    turn_count: int,
    tokens_used: int
  }
}

提示工程框架

系统提示（System Prompt）的设计采用模块化结构：

基础人设 (200 tokens)
  ├── 角色定义
  ├── 能力边界
  └── 行为准则

动态上下文 (variable)
  ├── 用户画像
  ├── 会话历史摘要
  └── 相关知识注入

任务指令 (100 tokens)
  ├── 当前任务描述
  └── 输出格式要求

💡 实用技巧：将系统提示分解为静态和动态部分，静态部分可以预先编码并缓存，减少每次推理的 token 开销。

10.1.2 数据收集与预处理

数据来源多样化

种子数据（10K 样本） - 人工编写的高质量对话 - 涵盖 50+ 场景类别 - 每个样本经过 3 人交叉验证
用户交互数据（1M+ 样本） - 真实用户对话日志 - 隐私脱敏处理 - 质量评分筛选（保留 top 30%）
合成数据（500K 样本） - Self-Instruct 生成 - 主题控制的多样性采样 - 自动质量过滤

数据预处理管道

原始数据 → 清洗 → 标准化 → 质量评分 → 去重 → 平衡采样 → 训练集
           ↓        ↓         ↓         ↓        ↓
        噪声过滤  格式统一  启发式+模型  MinHash  类别均衡

关键处理步骤：

多轮对话拆分： - 保持上下文连贯性 - 滑动窗口采样（stride=2） - 最大上下文长度 2048 tokens
质量评分模型：使用 BERT-based 分类器，评分维度包括：

相关性（0-1）
流畅性（0-1）
信息量（0-1）
安全性（0-1）

综合评分 = 0.3×相关性 + 0.2×流畅性 + 0.3×信息量 + 0.2×安全性

去重策略： - 完全匹配去重 - MinHash 近似去重（相似度阈值 0.85） - 语义去重（嵌入向量余弦相似度 > 0.95）

⚠️ 常见陷阱：过度清洗会导致数据分布过于狭窄，保留 5-10% 的"噪声"数据有助于提高模型鲁棒性。

10.1.3 SFT 基线训练

训练配置

基于 7B 参数的基座模型，SFT 训练配置：

training_config:
  base_model: "llama-2-7b"
  learning_rate: 2e-5
  warmup_steps: 1000
  total_steps: 50000
  batch_size: 128
  gradient_accumulation: 4
  max_length: 2048

  # 关键优化
  gradient_checkpointing: true
  mixed_precision: "bf16"
  flash_attention: true

  # 正则化
  weight_decay: 0.01
  dropout: 0.1
  label_smoothing: 0.1

训练策略

课程学习

分三个阶段逐步增加任务难度：

阶段 1（20% steps）：单轮简单对话
阶段 2（40% steps）：多轮对话，无复杂推理
阶段 3（40% steps）：完整数据集，包含复杂任务

动态采样

根据模型在验证集上的表现动态调整数据分布：

def dynamic_sampling_weight(category_loss):
    """损失越大的类别，采样权重越高"""
    weights = np.exp(category_loss / temperature)
    return weights / weights.sum()

检查点策略

每 1000 步保存检查点
保留验证集 loss 最低的 5 个检查点
最终模型 = top-3 检查点的平均

训练监控

实时监控的关键指标：

训练指标 - Loss 曲线（平滑窗口=100） - 梯度范数 - 学习率调度 - GPU 利用率
验证指标 - Perplexity - BLEU-4 分数 - 响应多样性（Distinct-1/2） - 安全性评分
在线指标（A/B 测试） - 用户满意度评分 - 对话轮次 - 会话完成率 - 响应时间（P50/P95/P99）

10.1.4 RLHF 优化流程

奖励模型训练

数据收集：

偏好标注（50K 对） - 对于同一 prompt，生成 4-8 个响应 - 3 名标注员独立排序 - Bradley-Terry 模型聚合偏好
标注质量控制 - 标注员一致性检查（Fleiss' Kappa > 0.6） - 黄金标准测试（准确率 > 85%） - 异常标注自动检测

模型架构：

输入 → Encoder → [CLS] token → Linear → Scalar Reward
         ↓
    共享 SFT 模型参数（冻结前 N-2 层）

训练技巧：

使用 Focal Loss 处理偏好强度不平衡
加入 KL 正则化防止奖励 hacking
多任务学习：同时预测偏好和响应质量

PPO 训练

PPO 配置：

ppo_config:
  kl_penalty: 0.1
  clip_range: 0.2
  value_loss_coef: 0.5
  entropy_coef: 0.01

  # 采样策略
  rollout_batch_size: 512
  minibatch_size: 64
  ppo_epochs: 4

  # 奖励设计
  reward_components:
    preference_score: 0.6
    kl_penalty: 0.2
    length_penalty: 0.1
    safety_score: 0.1

关键优化：

奖励归一化

rewards = (rewards - rewards.mean()) / (rewards.std() + 1e-8)

KL 散度自适应

if kl_divergence > target_kl * 1.5:
    kl_coef *= 1.5
elif kl_divergence < target_kl * 0.5:
    kl_coef *= 0.7

早停策略 - 验证集奖励不再提升 - KL 散度超过阈值 - 响应多样性显著下降

📌 重要发现：PPO 训练中，保持 KL 散度在 1-3 之间通常能获得最佳的能力-对齐平衡。

10.1.5 安全性与对齐

多层安全防护

输入安全检查 → 生成过程干预 → 输出安全过滤 → 人工审核（采样）
      ↓              ↓               ↓              ↓
  敏感词过滤    安全引导生成     毒性检测      异常上报

Constitutional AI 实现

自我批评和改进循环：

初始响应生成
自我批评："这个回答是否可能造成伤害？"
修订生成："请修改回答，使其更加有帮助且无害"
最终检查：外部安全分类器验证

红队测试

系统化的对抗测试：

自动化攻击：使用对抗样本生成器
人工红队：安全专家定期测试
众包测试：付费用户尝试"越狱"
持续监控：生产环境异常检测

10.1.6 部署与监控

服务架构

         负载均衡器
              ↓
    ┌─────────┴─────────┐
    ↓                   ↓
推理服务器集群      缓存层(Redis)
    ↓                   ↓
    └─────────┬─────────┘
              ↓
         模型服务
    (TorchServe/Triton)

性能优化

模型优化 - INT8 量化（精度损失 < 1%） - Flash Attention - KV Cache 优化 - 动态 batching
系统优化 - 请求级并发控制 - 自适应超时设置 - 预测性预加载 - 结果缓存（相似 query）

监控指标体系

业务指标：

DAU/MAU
平均对话轮次
用户满意度 NPS
留存率

技术指标：

QPS/TPS
延迟分布（P50/P95/P99）
错误率
GPU 利用率

质量指标：

响应相关性（在线评估）
安全违规率
幻觉检测率
A/B 测试胜率

故障恢复

模型回滚：保留最近 3 个稳定版本
降级策略：高负载时切换到小模型
熔断机制：异常请求自动隔离
灾备方案：多地域部署

10.2 多模态助手的训练流程

多模态大模型的训练比纯文本模型复杂得多，需要处理不同模态间的对齐、融合和协同。本节介绍一个支持文本、图像、语音的多模态助手项目，该系统在多个基准测试中达到 SOTA 性能。

10.2.1 模态融合架构

架构设计原则

早期融合 vs 晚期融合

我们采用混合融合策略：

早期融合：低层特征通过 cross-attention 交互
晚期融合：高层语义通过 gated fusion 结合

视觉编码器 ──┐
            ├→ Cross-Attention → Transformer Layers → Gated Fusion → 输出
文本编码器 ──┘                         ↑
                                    语音编码器

模态对齐层设计

class ModalityAligner(nn.Module):
    def __init__(self, visual_dim, text_dim, audio_dim, hidden_dim):
        super().__init__()
        # 投影到统一维度
        self.visual_proj = nn.Linear(visual_dim, hidden_dim)
        self.text_proj = nn.Linear(text_dim, hidden_dim)
        self.audio_proj = nn.Linear(audio_dim, hidden_dim)

        # 可学习的模态 embedding
        self.modality_embeddings = nn.Parameter(
            torch.randn(3, hidden_dim)
        )

    def forward(self, visual=None, text=None, audio=None):
        features = []
        if visual is not None:
            features.append(self.visual_proj(visual) + self.modality_embeddings[0])
        if text is not None:
            features.append(self.text_proj(text) + self.modality_embeddings[1])
        if audio is not None:
            features.append(self.audio_proj(audio) + self.modality_embeddings[2])
        return torch.cat(features, dim=1)

视觉编码器选择

对比实验结果：

编码器	参数量	图像理解	训练速度	内存占用
CLIP ViT-L	428M	85.2%	1.0x	16GB
EVA-CLIP	1B	87.8%	0.6x	24GB
SigLIP	400M	86.5%	1.2x	14GB
DINOv2	1.1B	88.1%	0.5x	28GB

最终选择：SigLIP（性能-效率平衡最优）

10.2.2 数据对齐策略

多模态数据收集

图文对数据（5M pairs） - LAION-5B 筛选（美学分数 > 6） - CC12M 高质量子集 - 内部标注数据（100K）
视频-文本数据（1M clips） - WebVid-10M 采样 - 自动字幕生成 + 人工校验
语音-文本数据（2M hours） - LibriSpeech + CommonVoice - 多语言、多口音覆盖

数据预处理管道

图像处理：

transform = Compose([
    RandomResizedCrop(224, scale=(0.8, 1.0)),
    RandomHorizontalFlip(p=0.5),
    ColorJitter(brightness=0.4, contrast=0.4),
    ToTensor(),
    Normalize(mean=IMAGENET_MEAN, std=IMAGENET_STD)
])

文本增强：

模板变换：同一语义的多种表达
反向翻译：英→中→英增加多样性
指令改写：将陈述句改为指令格式

时序对齐：

视频帧采样策略：

- 均匀采样：每秒 1 帧
- 关键帧采样：场景变化检测
- 密集采样：动作识别任务（8 fps）

10.2.3 渐进式训练

三阶段训练策略

阶段 1：模态对齐预训练（100K steps）

目标：学习不同模态的统一表示

stage1_config:
  frozen_modules: ["text_encoder", "visual_encoder"]
  trainable: ["projection_layers", "alignment_modules"]
  learning_rate: 1e-4
  tasks:

    - image_text_matching: 0.3
    - masked_language_modeling: 0.3
    - image_text_contrastive: 0.4

阶段 2：多模态理解训练（200K steps）

目标：跨模态推理能力

stage2_config:
  frozen_modules: ["visual_encoder.layers[:-2]"]
  learning_rate: 5e-5
  tasks:

    - visual_question_answering: 0.25
    - image_captioning: 0.25
    - visual_reasoning: 0.25
    - audio_understanding: 0.25

阶段 3：指令微调（50K steps）

目标：遵循多模态指令

训练数据分布：

纯文本指令：30%
图像相关指令：40%
音频相关指令：20%
混合模态指令：10%

💡 关键发现：在阶段 2 加入 10% 的纯文本数据可以有效防止语言能力退化。

10.2.4 跨模态能力评估

评估基准设计

单模态基准 - 文本：MMLU, HellaSwag, ARC - 图像：ImageNet, COCO Detection - 音频：LibriSpeech WER
跨模态基准 - VQA v2：视觉问答 - NLVR2：视觉推理 - Flickr30K：图文检索 - AVSD：音视频对话
自建评估集 - 多跳推理：需要结合多个模态信息 - 指令泛化：未见过的指令组合 - 鲁棒性测试：对抗样本、噪声输入

评估指标体系

class MultiModalEvaluator:
    def __init__(self):
        self.metrics = {
            'accuracy': AccuracyMetric(),
            'bleu': BLEUMetric(),
            'clip_score': CLIPScoreMetric(),
            'perplexity': PerplexityMetric()
        }

    def evaluate(self, predictions, references, modalities):
        results = {}
        for modality in modalities:
            modal_preds = predictions[modality]
            modal_refs = references[modality]

            if modality == 'text':
                results[f'{modality}_bleu'] = self.metrics['bleu'](modal_preds, modal_refs)
                results[f'{modality}_ppl'] = self.metrics['perplexity'](modal_preds)
            elif modality == 'vision':
                results[f'{modality}_acc'] = self.metrics['accuracy'](modal_preds, modal_refs)
                results[f'{modality}_clip'] = self.metrics['clip_score'](modal_preds, modal_refs)

        # 跨模态一致性
        results['cross_modal_alignment'] = self.compute_alignment(predictions)
        return results

10.2.5 推理优化

模态级优化

动态模态选择

根据输入自动判断需要激活的编码器：

def dynamic_forward(self, inputs):
    active_encoders = []
    if inputs.get('image') is not None:
        active_encoders.append(self.visual_encoder)
    if inputs.get('audio') is not None:
        active_encoders.append(self.audio_encoder)

    # 只计算必要的编码器
    features = [enc(inp) for enc, inp in zip(active_encoders, inputs.values())]
    return self.fusion_layer(features)

缓存策略

KV Cache：标准 Transformer 缓存
Visual Cache：相似图像的特征复用
Instruction Cache：常见指令的预计算

量化方案

不同模块采用不同量化策略：

| 模块 | 量化方法 | 精度损失 |

模块	量化方法	精度损失
视觉编码器	INT8 动态量化	< 0.5%
文本编码器	FP16	< 0.1%
融合层	INT8 静态量化	< 1%
输出层	FP32（不量化）	0%

服务化部署

deployment_config:
  model_parallel: 2  # 模型并行度
  data_parallel: 4   # 数据并行度

  serving:
    max_batch_size: 32
    dynamic_batching: true
    timeout_ms: 5000

  optimization:
    use_flash_attention: true
    use_xformers: true
    compile_mode: "reduce-overhead"

⚠️ 部署陷阱：多模态模型的 batch 组装需要特别注意 padding，不同长度的文本和不同分辨率的图像会导致大量无效计算。

10.3 领域专家模型的构建

领域专家模型需要在保持通用能力的同时，深度掌握特定领域知识。本节以医疗领域为例，展示如何构建一个既懂医学知识又能自然交互的专家助手。

10.3.1 领域知识注入

知识来源与质量控制

权威数据源

医学教科书：200+ 本标准教材
临床指南：WHO、CDC 等权威指南
医学文献：PubMed 近 10 年高引论文
病例数据：脱敏的真实病例（50K+）
医学百科：MedlinePlus、UpToDate

知识图谱构建

疾病实体 ──[症状关系]──> 症状实体
    ↓                        ↑
[治疗关系]              [检查关系]
    ↓                        ↑
药物实体 ←──[相互作用]──→ 检查实体

知识三元组示例：

knowledge_triples = [
    ("糖尿病", "常见症状", "多饮多尿"),
    ("二甲双胍", "治疗", "2型糖尿病"),
    ("二甲双胍", "禁忌症", "肾功能不全"),
    ("HbA1c", "诊断标准", ">6.5%")
]

知识验证流程

def validate_medical_knowledge(text, knowledge_base):
    """验证医学内容的准确性"""
    claims = extract_medical_claims(text)

    for claim in claims:
        # 1. 检查与知识库的一致性
        kb_consistency = check_kb_consistency(claim, knowledge_base)

        # 2. 交叉引用验证
        citations = find_citations(claim)
        citation_quality = evaluate_citation_quality(citations)

        # 3. 专家审核标记
        if kb_consistency < 0.8 or citation_quality < 0.7:
            claim.mark_for_expert_review()

    return claims

知识注入方法

继续预训练（CPT）

在通用模型基础上继续预训练：

cpt_config:
  base_model: "llama-2-7b"
  learning_rate: 5e-5
  total_steps: 100000

  data_mixture:
    medical_textbooks: 0.3
    clinical_guidelines: 0.2
    medical_papers: 0.2
    general_corpus: 0.3  # 防止遗忘

  curriculum:

    - phase: "basic"
      steps: 30000
      focus: "medical_terminology"

    - phase: "intermediate"
      steps: 40000
      focus: "disease_pathology"

    - phase: "advanced"
      steps: 30000
      focus: "clinical_reasoning"

知识蒸馏

从大型医学模型蒸馏到部署规模：

class MedicalKnowledgeDistillation:
    def __init__(self, teacher_model, student_model):
        self.teacher = teacher_model
        self.student = student_model
        self.temp = 5.0

    def distillation_loss(self, inputs, alpha=0.7):
        with torch.no_grad():
            teacher_logits = self.teacher(inputs)

        student_logits = self.student(inputs)

        # KL divergence loss
        kl_loss = F.kl_div(
            F.log_softmax(student_logits / self.temp, dim=-1),
            F.softmax(teacher_logits / self.temp, dim=-1),
            reduction='batchmean'
        ) * (self.temp ** 2)

        # Combined with task loss
        task_loss = F.cross_entropy(student_logits, labels)

        return alpha * kl_loss + (1 - alpha) * task_loss

10.3.2 专业数据采集

数据采集策略

主动学习采样

优先采集模型不确定的样本：

def uncertainty_sampling(model, unlabeled_pool, n_samples=1000):
    """基于不确定性的主动学习"""
    uncertainties = []

    for sample in unlabeled_pool:
        with torch.no_grad():
            logits = model(sample)
            probs = F.softmax(logits, dim=-1)

            # 熵作为不确定性度量
            entropy = -(probs * probs.log()).sum(dim=-1)
            uncertainties.append(entropy.item())

    # 选择不确定性最高的样本
    indices = np.argsort(uncertainties)[-n_samples:]
    return [unlabeled_pool[i] for i in indices]

专家标注系统

分级标注流程：

初级标注员（医学生）
    ↓ [基础标注]
质量检查点 1
    ↓ [通过率 > 90%]
中级审核员（住院医师）
    ↓ [临床验证]
质量检查点 2
    ↓ [分歧案例]
高级专家（主治医师）
    ↓ [最终确认]
入库

合成数据生成

基于模板的病例生成：

def generate_synthetic_cases(templates, knowledge_base, n_cases=10000):
    """生成合成病例数据"""
    cases = []

    for _ in range(n_cases):
        template = random.choice(templates)

        # 填充疾病信息
        disease = sample_disease(knowledge_base)
        symptoms = get_symptoms(disease, knowledge_base)
        treatments = get_treatments(disease, knowledge_base)

        # 生成病例描述
        case = template.format(
            age=random.randint(20, 80),
            gender=random.choice(['男', '女']),
            symptoms=', '.join(symptoms[:3]),
            duration=random.randint(1, 30),
            diagnosis=disease,
            treatment=treatments[0]
        )

        cases.append(case)

    return cases

10.3.3 持续学习机制

增量学习框架

弹性权重巩固（EWC）

防止灾难性遗忘：

class EWC:
    def __init__(self, model, dataset, importance=1000):
        self.model = model
        self.importance = importance
        self.params = {n: p.clone() for n, p in model.named_parameters()}
        self.fisher = self._compute_fisher(dataset)

    def _compute_fisher(self, dataset):
        """计算 Fisher 信息矩阵"""
        fisher = {}
        model.eval()

        for data in dataset:
            model.zero_grad()
            output = model(data)
            loss = F.cross_entropy(output, data.labels)
            loss.backward()

            for n, p in model.named_parameters():
                if n not in fisher:
                    fisher[n] = p.grad.data.clone() ** 2
                else:
                    fisher[n] += p.grad.data.clone() ** 2

        for n in fisher:
            fisher[n] /= len(dataset)

        return fisher

    def penalty(self):
        """计算 EWC 惩罚项"""
        loss = 0
        for n, p in self.model.named_parameters():
            if n in self.fisher:
                loss += (self.fisher[n] * (p - self.params[n]) ** 2).sum()
        return self.importance * loss

知识重放机制

class ExperienceReplay:
    def __init__(self, buffer_size=10000):
        self.buffer = deque(maxlen=buffer_size)
        self.priorities = deque(maxlen=buffer_size)

    def add(self, experience, priority=1.0):
        self.buffer.append(experience)
        self.priorities.append(priority)

    def sample(self, batch_size, alpha=0.6):
        """优先级采样"""
        probs = np.array(self.priorities) ** alpha
        probs /= probs.sum()

        indices = np.random.choice(
            len(self.buffer), 
            batch_size, 
            p=probs
        )

        return [self.buffer[i] for i in indices]

10.3.4 性能基准设计

医疗领域评估基准

知识准确性测试

MedQA：医学考试题（USMLE style）
PubMedQA：基于文献的问答
MedMCQA：多选题医学知识

临床推理能力

def evaluate_clinical_reasoning(model, test_cases):
    """评估临床推理能力"""
    metrics = {
        'diagnosis_accuracy': 0,
        'treatment_appropriateness': 0,
        'safety_score': 0
    }

    for case in test_cases:
        # 生成诊断
        diagnosis = model.generate_diagnosis(case.symptoms)
        metrics['diagnosis_accuracy'] += (
            diagnosis == case.gold_diagnosis
        )

        # 生成治疗方案
        treatment = model.suggest_treatment(diagnosis)
        metrics['treatment_appropriateness'] += evaluate_treatment(
            treatment, case.gold_treatment
        )

        # 安全性检查
        contraindications = check_contraindications(
            treatment, case.patient_info
        )
        metrics['safety_score'] += (len(contraindications) == 0)

    # 归一化
    for key in metrics:
        metrics[key] /= len(test_cases)

    return metrics

对话质量评估

专业术语使用准确性
解释的可理解性
回答的完整性
安全建议的适当性

10.3.5 知识更新策略

定期更新流程

新知识识别

def identify_new_knowledge(recent_papers, existing_kb):
    """识别需要更新的知识"""
    updates = {
        'new_diseases': [],
        'updated_treatments': [],
        'revised_guidelines': []
    }

    for paper in recent_papers:
        entities = extract_medical_entities(paper)

        for entity in entities:
            if entity.type == 'disease' and entity not in existing_kb:
                updates['new_diseases'].append(entity)
            elif entity.type == 'treatment':
                if has_significant_change(entity, existing_kb):
                    updates['updated_treatments'].append(entity)

    return updates

增量训练管道

update_pipeline:
  frequency: "monthly"

  steps:

    - name: "collect_updates"
      sources: ["pubmed", "clinical_trials", "fda_approvals"]

    - name: "validate_updates"
      validators: ["expert_review", "consistency_check"]

    - name: "prepare_training_data"
      augmentation: true
      balance_with_existing: 0.3

    - name: "incremental_training"
      method: "ewc"
      epochs: 5
      learning_rate: 1e-5

    - name: "evaluation"
      benchmarks: ["medqa", "safety_tests"]
      threshold: 0.95  # 相对于前版本

    - name: "deployment"
      strategy: "gradual_rollout"
      monitoring_period: "7d"

📌 关键经验：医疗领域模型更新时，宁可保守也不能引入错误信息。每次更新都需要完整的回归测试。