ros2_tutorial

第 16 章：安全性与诊断系统

本章深入探讨 ROS2 的安全性框架和诊断系统，这是构建可靠、安全的机器人系统的关键基础。我们将从 SROS2（Secure ROS2）安全框架开始，学习如何通过访问控制、加密和认证机制保护机器人系统。随后深入诊断系统的设计与实现，探讨如何监控系统健康状态、检测故障并执行恢复策略。通过医疗机器人 ISO 13485 合规案例，展示如何在实际产业中实施安全和诊断机制。最后讨论功能安全认证和 SIL（Safety Integrity Level）级别，为安全关键型应用提供指导。

16.1 SROS2 安全框架概述

16.1.1 安全威胁模型

在分布式机器人系统中，主要面临以下安全威胁：

数据窃听（Eavesdropping）：未授权节点监听敏感数据
数据篡改（Tampering）：恶意修改传输中的消息
身份伪造（Spoofing）：冒充合法节点发送虚假命令
拒绝服务（DoS）：通过大量请求使系统瘫痪
权限提升（Privilege Escalation）：获取超出授权的系统访问

16.1.2 SROS2 架构

SROS2 建立在 DDS Security 规范之上，提供端到端的安全保护：

┌─────────────────────────────────────────────┐
│             Application Layer                │
├─────────────────────────────────────────────┤
│              ROS2 Middleware                 │
├─────────────────────────────────────────────┤
│            DDS Security Plugins              │
│  ┌──────────┬──────────┬──────────────┐    │
│  │Auth Plugin│Access    │Crypto Plugin │    │
│  │          │Control   │              │    │
│  └──────────┴──────────┴──────────────┘    │
├─────────────────────────────────────────────┤
│              DDS Core                        │
└─────────────────────────────────────────────┘

16.1.3 安全策略配置

SROS2 使用 XML 格式的安全策略文件定义访问权限：

<?xml version="1.0" encoding="UTF-8"?>
<dds xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
  <permissions>
    <grant name="robot_controller_permissions">
      <subject_name>CN=robot_controller</subject_name>
      <validity>
        <not_before>2024-01-01T00:00:00</not_before>
        <not_after>2025-01-01T00:00:00</not_after>
      </validity>
      <allow_rule>
        <domains>
          <id>0</id>
        </domains>
        <publish>
          <topics>
            <topic>/cmd_vel</topic>
            <topic>/robot_status</topic>
          </topics>
        </publish>
        <subscribe>
          <topics>
            <topic>/sensors/*</topic>
          </topics>
        </subscribe>
      </allow_rule>
    </grant>
  </permissions>
</dds>

16.1.4 密钥管理

SROS2 采用 PKI（Public Key Infrastructure）体系：

证书颁发机构（CA）：签发和管理数字证书
节点证书：每个节点拥有唯一的身份证书
密钥存储：使用密钥库（keystore）安全存储私钥
证书链验证：通过证书链验证节点身份

密钥生成和分发流程：

# 初始化安全目录
ros2 security create_keystore demo_keystore

# 生成根证书
ros2 security create_key demo_keystore /robot_controller

# 创建权限文件
ros2 security create_permission demo_keystore /robot_controller permissions.xml

# 签发证书
ros2 security create_enclave demo_keystore /robot_controller

16.2 访问控制与加密机制

16.2.1 细粒度访问控制

SROS2 支持多层次的访问控制：

域级别控制：限制节点可以加入的 DDS 域
话题级别控制：精确控制发布和订阅权限
服务级别控制：限制服务调用权限
参数级别控制：保护敏感参数访问

访问控制矩阵示例：

节点	发布权限	订阅权限	服务调用权限
navigation	/cmd_vel, /path	/scan, /map	/get_plan
perception	/scan, /pointcloud	/camera/*	-
controller	/joint_states	/cmd_vel	/emergency_stop

16.2.2 加密算法选择

SROS2 支持多种加密算法，根据性能和安全需求选择：

对称加密（数据加密）:
- AES-128-GCM: 标准选择，平衡性能与安全
- AES-256-GCM: 高安全级别，适用于敏感数据
- ChaCha20-Poly1305: ARM 设备优化

非对称加密（密钥交换）:
- RSA-2048: 广泛支持，兼容性好
- ECDSA-P256: 更小的密钥尺寸，更高效
- EdDSA: 现代算法，抗侧信道攻击

哈希算法（完整性验证）:
- SHA-256: 标准选择
- SHA-384/512: 更高安全级别
- BLAKE2: 高性能替代方案

16.2.3 传输层安全

数据传输安全机制：

消息认证码（MAC）：验证消息完整性和来源
序列号：防止重放攻击
时间戳：确保消息时效性
加密有效载荷：保护敏感数据内容

性能影响分析：

基准测试（1000字节消息，1kHz 发布频率）：
- 无安全保护: 延迟 0.5ms, CPU 5%
- 仅认证: 延迟 0.7ms, CPU 8%
- 认证+加密: 延迟 1.2ms, CPU 15%
- 完整安全套件: 延迟 1.5ms, CPU 20%

16.2.4 安全通信建立流程

节点间安全通信的建立过程：

Node A                          Node B
  │                               │
  ├──────[1. Discovery]──────────>│
  │   (广播节点信息和证书)         │
  │                               │
  │<─────[2. Authentication]──────┤
  │   (相互验证身份证书)           │
  │                               │
  ├──────[3. Key Exchange]───────>│
  │   (协商会话密钥)              │
  │                               │
  │<─────[4. Access Check]────────┤
  │   (验证访问权限)              │
  │                               │
  ├══════[5. Secure Channel]══════┤
  │   (建立加密通道)              │
  │                               │

16.3 诊断系统架构

16.3.1 诊断消息标准

ROS2 诊断系统使用标准化的消息格式：

# diagnostic_msgs/msg/DiagnosticStatus.msg
byte OK=0
byte WARN=1
byte ERROR=2
byte STALE=3

byte level              # 诊断级别
string name            # 组件名称
string message         # 人类可读的状态描述
string hardware_id     # 硬件标识符
KeyValue[] values      # 键值对形式的详细信息

16.3.2 诊断聚合器设计

诊断聚合器（Diagnostic Aggregator）收集和组织诊断信息：

                    ┌──────────────────┐
                    │ Diagnostic       │
                    │ Aggregator       │
                    └────────┬─────────┘
                             │
            ┌────────────────┼────────────────┐
            │                │                │
     ┌──────┴──────┐  ┌─────┴──────┐  ┌─────┴──────┐
     │ Hardware    │  │ Software   │  │ Network    │
     │ Monitor     │  │ Monitor    │  │ Monitor    │
     └──────┬──────┘  └─────┬──────┘  └─────┬──────┘
            │                │                │
     ┌──────┴──────┐  ┌─────┴──────┐  ┌─────┴──────┐
     │ CPU Temp    │  │ Node       │  │ Latency    │
     │ Memory      │  │ Frequency  │  │ Packet Loss│
     │ Disk Space  │  │ Queue Size │  │ Bandwidth  │
     └─────────────┘  └────────────┘  └────────────┘

16.3.3 诊断更新器实现

节点级诊断更新器示例：

import rclpy
from rclpy.node import Node
from diagnostic_updater import Updater, FunctionDiagnosticTask
from diagnostic_msgs.msg import DiagnosticStatus

class SensorNode(Node):
    def __init__(self):
        super().__init__('sensor_node')
        
        # 初始化诊断更新器
        self.updater = Updater(self)
        self.updater.setHardwareID("sensor_001")
        
        # 添加诊断任务
        self.updater.add("Sensor Connection", self.check_connection)
        self.updater.add("Data Rate", self.check_data_rate)
        self.updater.add("Data Quality", self.check_data_quality)
        
        # 诊断更新定时器
        self.timer = self.create_timer(1.0, self.updater.update)
        
    def check_connection(self, stat):
        if self.sensor_connected:
            stat.summary(DiagnosticStatus.OK, "Connected")
            stat.add("Port", "/dev/ttyUSB0")
            stat.add("Baud Rate", "115200")
        else:
            stat.summary(DiagnosticStatus.ERROR, "Disconnected")
            
    def check_data_rate(self, stat):
        rate = self.calculate_data_rate()
        if rate > 90:
            stat.summary(DiagnosticStatus.OK, f"{rate:.1f} Hz")
        elif rate > 50:
            stat.summary(DiagnosticStatus.WARN, f"{rate:.1f} Hz (Low)")
        else:
            stat.summary(DiagnosticStatus.ERROR, f"{rate:.1f} Hz (Critical)")
        stat.add("Expected Rate", "100 Hz")
        stat.add("Actual Rate", f"{rate:.1f} Hz")

16.3.4 诊断分析器配置

配置诊断分析器以组织和解释诊断信息：

# diagnostic_aggregator.yaml
analyzers:
  sensors:
    type: diagnostic_aggregator/AnalyzerGroup
    path: Sensors
    analyzers:
      lidar:
        type: diagnostic_aggregator/GenericAnalyzer
        path: LiDAR
        contains: ['lidar']
        timeout: 5.0
        
      cameras:
        type: diagnostic_aggregator/GenericAnalyzer
        path: Cameras
        contains: ['camera']
        remove_prefix: camera_
        
  motors:
    type: diagnostic_aggregator/GenericAnalyzer
    path: Motors
    contains: ['motor', 'joint']
    expected: ['motor_left', 'motor_right']
    
  system:
    type: diagnostic_aggregator/AnalyzerGroup
    path: System
    analyzers:
      cpu:
        type: diagnostic_aggregator/GenericAnalyzer
        path: CPU
        contains: ['cpu']
        
      memory:
        type: diagnostic_aggregator/GenericAnalyzer
        path: Memory
        contains: ['memory', 'ram']

16.4 系统监控与故障处理

16.4.1 健康监控指标

关键系统健康指标：

性能指标
- CPU 使用率和温度
- 内存使用和交换空间
- 网络延迟和丢包率
- 磁盘 I/O 和空间使用
ROS2 特定指标
- 节点存活状态
- 话题发布频率
- 消息队列深度
- 回调执行时间
硬件指标
- 传感器数据率
- 执行器响应时间
- 电池电压和电流
- 温度传感器读数

监控数据流水线：

数据采集 -> 预处理 -> 异常检测 -> 告警生成 -> 响应执行
    │          │           │            │           │
  Metrics   Filter    Threshold     Priority    Action
 Collector  & Aggregate  Check      Assignment  Trigger

16.4.2 故障检测算法

实现多层次故障检测：

class FaultDetector:
    def __init__(self):
        self.thresholds = {
            'cpu_usage': {'warn': 70, 'error': 90},
            'memory_usage': {'warn': 80, 'error': 95},
            'message_delay': {'warn': 50, 'error': 100},  # ms
            'packet_loss': {'warn': 1, 'error': 5}  # percentage
        }
        
        # 滑动窗口用于趋势分析
        self.history_window = 60  # seconds
        self.metric_history = defaultdict(deque)
        
    def detect_anomalies(self, metrics):
        anomalies = []
        
        # 阈值检测
        for metric, value in metrics.items():
            if metric in self.thresholds:
                level = self.check_threshold(metric, value)
                if level:
                    anomalies.append((metric, level, value))
        
        # 趋势分析
        trends = self.analyze_trends(metrics)
        anomalies.extend(trends)
        
        # 相关性分析
        correlations = self.check_correlations(metrics)
        anomalies.extend(correlations)
        
        return anomalies
    
    def analyze_trends(self, metrics):
        """检测异常趋势"""
        trends = []
        for metric, value in metrics.items():
            self.metric_history[metric].append(value)
            
            if len(self.metric_history[metric]) > 10:
                # 计算变化率
                recent = list(self.metric_history[metric])[-10:]
                slope = np.polyfit(range(10), recent, 1)[0]
                
                if abs(slope) > self.get_trend_threshold(metric):
                    trends.append((metric, 'trend', slope))
                    
        return trends

16.4.3 故障恢复策略

分级故障恢复机制：

class RecoveryManager:
    def __init__(self):
        self.recovery_strategies = {
            'node_crash': [
                self.restart_node,
                self.restart_with_safe_config,
                self.switch_to_backup_node
            ],
            'sensor_failure': [
                self.reset_sensor,
                self.use_sensor_fusion,
                self.enable_degraded_mode
            ],
            'network_issue': [
                self.reset_network_interface,
                self.switch_to_backup_network,
                self.enable_offline_mode
            ]
        }
        
    def execute_recovery(self, fault_type, context):
        """执行分级恢复策略"""
        strategies = self.recovery_strategies.get(fault_type, [])
        
        for strategy in strategies:
            self.get_logger().info(f"Attempting recovery: {strategy.__name__}")
            
            try:
                success = strategy(context)
                if success:
                    self.get_logger().info(f"Recovery successful: {strategy.__name__}")
                    return True
                    
            except Exception as e:
                self.get_logger().error(f"Recovery failed: {e}")
                
        return False

16.4.4 故障隔离与降级

实现优雅降级机制：

正常模式 (100% 功能)
    │
    ├─> 性能降级模式 (80% 功能)
    │   - 降低传感器采样率
    │   - 简化路径规划算法
    │   - 减少并发任务
    │
    ├─> 安全模式 (50% 功能)
    │   - 仅保留核心功能
    │   - 限制运动速度
    │   - 增加安全边界
    │
    └─> 紧急停止模式 (0% 功能)
        - 立即停止所有运动
        - 保持通信链路
        - 等待人工干预

16.5 产业案例研究：医疗机器人 ISO 13485 合规

16.5.1 项目背景

某医疗科技公司开发手术辅助机器人系统，需要满足 ISO 13485 医疗器械质量管理体系和 IEC 62304 医疗器械软件生命周期过程标准。系统包括：

主控制器：处理手术规划和机器人控制
机械臂系统：7 自由度协作机械臂
视觉系统：立体相机和内窥镜集成
力反馈系统：6 轴力/力矩传感器
安全监控系统：独立的硬件安全回路

16.5.2 安全需求分析

根据 ISO 14971 风险管理标准，识别关键安全需求：

患者安全
- 位置精度：< 0.5mm
- 力限制：< 10N
- 紧急停止时间：< 100ms
数据安全
- 患者数据加密存储
- 审计日志完整性
- 访问控制和身份认证
系统可靠性
- 平均故障间隔时间（MTBF）：> 10000 小时
- 故障恢复时间（MTTR）：< 30 分钟
- 系统可用性：> 99.9%

16.5.3 安全架构实现

分层安全架构设计：

┌─────────────────────────────────────────────┐
│          应用层（手术规划软件）               │
├─────────────────────────────────────────────┤
│         安全中间件层（SROS2）                │
│   - 认证与授权                              │
│   - 数据加密                                │
│   - 审计日志                                │
├─────────────────────────────────────────────┤
│        实时控制层（RT-PREEMPT）              │
│   - 确定性调度                              │
│   - 故障检测                                │
│   - 安全状态机                              │
├─────────────────────────────────────────────┤
│       硬件安全层（Safety PLC）               │
│   - 紧急停止                                │
│   - 位置限制                                │
│   - 力矩限制                                │
└─────────────────────────────────────────────┘

16.5.4 诊断系统设计

多级诊断系统实现：

class MedicalRobotDiagnostics:
    def __init__(self):
        # IEC 62304 软件安全分类
        self.safety_class = "Class C"  # 可能导致死亡或严重伤害
        
        # 诊断检查项
        self.diagnostic_checks = {
            'critical': [  # 关键检查，失败立即停止
                self.check_emergency_stop,
                self.check_force_limits,
                self.check_position_accuracy
            ],
            'major': [  # 主要检查，失败进入安全模式
                self.check_sensor_redundancy,
                self.check_communication_integrity,
                self.check_power_supply
            ],
            'minor': [  # 次要检查，记录但继续运行
                self.check_temperature,
                self.check_network_latency,
                self.check_log_storage
            ]
        }
        
    def perform_startup_diagnostics(self):
        """启动时完整诊断检查"""
        results = {
            'passed': True,
            'critical_failures': [],
            'warnings': []
        }
        
        # 执行所有级别的检查
        for level, checks in self.diagnostic_checks.items():
            for check in checks:
                status = check()
                if not status.ok:
                    if level == 'critical':
                        results['passed'] = False
                        results['critical_failures'].append(status)
                    else:
                        results['warnings'].append(status)
                        
        # 生成诊断报告
        self.generate_diagnostic_report(results)
        
        return results

16.5.5 审计日志系统

符合 21 CFR Part 11 的审计追踪：

class AuditLogger:
    def __init__(self):
        self.log_encryption_key = self.load_encryption_key()
        self.log_database = "audit_logs.db"
        
    def log_event(self, event_type, user_id, action, details):
        """记录审计事件"""
        event = {
            'timestamp': datetime.now(timezone.utc).isoformat(),
            'event_id': uuid.uuid4().hex,
            'event_type': event_type,
            'user_id': user_id,
            'action': action,
            'details': details,
            'system_state': self.capture_system_state()
        }
        
        # 计算事件哈希（防篡改）
        event['hash'] = self.calculate_hash(event)
        
        # 加密敏感信息
        encrypted_event = self.encrypt_event(event)
        
        # 存储到防篡改数据库
        self.store_event(encrypted_event)
        
        # 实时同步到备份服务器
        self.replicate_to_backup(encrypted_event)

16.5.6 性能验证结果

系统验证测试结果：

测试项目	要求	实测值	结果
位置精度	< 0.5mm	0.3mm	✓
力控制精度	< 10N	8.5N	✓
紧急停止时间	< 100ms	85ms	✓
加密延迟	< 5ms	3.2ms	✓
诊断检测时间	< 1s	0.8s	✓
系统启动时间	< 60s	45s	✓
MTBF	> 10000h	12500h	✓

16.5.7 经验教训

早期安全设计：安全不是事后添加的功能，需要从架构设计开始考虑
冗余设计：关键功能采用双重或三重冗余
独立验证：安全功能需要独立的验证和确认（V&V）
持续监控：部署后的持续监控和维护同样重要
文档完整性：医疗认证需要完整的设计、测试和验证文档

16.6 高级话题：功能安全与 SIL 认证

16.6.1 功能安全标准体系

机器人系统相关的功能安全标准：

IEC 61508 (基础标准)
    │
    ├─> ISO 13849 (机械安全)
    │   └─> Performance Level (PL)
    │
    ├─> IEC 62061 (机械电气安全)
    │   └─> SIL for machinery
    │
    ├─> ISO 26262 (汽车功能安全)
    │   └─> ASIL levels
    │
    └─> IEC 62304 (医疗软件)
        └─> Software Safety Classes

16.6.2 SIL 等级确定

安全完整性等级（Safety Integrity Level）评估：

def calculate_sil_level(severity, frequency, probability, avoidance):
    """
    根据风险参数计算 SIL 等级
    severity: 严重程度 (S1-S4)
    frequency: 暴露频率 (F1-F2)
    probability: 危险概率 (P1-P2)
    avoidance: 避免可能性 (A1-A2)
    """
    risk_matrix = {
        ('S1', 'F1', 'P1', 'A1'): 'SIL0',
        ('S1', 'F1', 'P1', 'A2'): 'SIL0',
        ('S1', 'F1', 'P2', 'A1'): 'SIL1',
        ('S1', 'F1', 'P2', 'A2'): 'SIL1',
        ('S2', 'F1', 'P1', 'A1'): 'SIL1',
        ('S2', 'F1', 'P1', 'A2'): 'SIL1',
        ('S2', 'F1', 'P2', 'A1'): 'SIL2',
        ('S2', 'F1', 'P2', 'A2'): 'SIL2',
        ('S3', 'F1', 'P1', 'A1'): 'SIL2',
        ('S3', 'F1', 'P1', 'A2'): 'SIL2',
        ('S3', 'F1', 'P2', 'A1'): 'SIL3',
        ('S3', 'F1', 'P2', 'A2'): 'SIL3',
        ('S4', 'F2', 'P2', 'A2'): 'SIL4'
    }
    
    return risk_matrix.get((severity, frequency, probability, avoidance), 'SIL3')

16.6.3 安全功能实现

SIL2 级别的安全功能实现示例：

class SafetyFunction:
    def __init__(self, sil_level=2):
        self.sil_level = sil_level
        
        # 根据 SIL 级别配置冗余
        if sil_level >= 2:
            self.redundancy = 2  # 双通道
        else:
            self.redundancy = 1  # 单通道
            
        # 诊断覆盖率要求
        self.diagnostic_coverage = {
            1: 60,  # SIL1: 60% 最小诊断覆盖率
            2: 90,  # SIL2: 90% 
            3: 99,  # SIL3: 99%
            4: 99   # SIL4: 99%
        }[sil_level]
        
    def execute_safety_function(self, inputs):
        """执行安全功能，带冗余和诊断"""
        results = []
        
        # 冗余执行
        for channel in range(self.redundancy):
            result = self.process_channel(inputs, channel)
            results.append(result)
            
        # 结果比较（2oo2 或 1oo2 投票）
        if self.redundancy > 1:
            if not self.compare_results(results):
                return self.trigger_safe_state()
                
        # 诊断检查
        if not self.perform_diagnostics():
            return self.trigger_safe_state()
            
        return results[0]

16.6.4 故障概率计算

计算危险故障概率（PFH - Probability of Dangerous Failure per Hour）：

def calculate_pfh(lambda_d, dc, beta, t_proof):
    """
    计算每小时危险故障概率
    lambda_d: 危险故障率
    dc: 诊断覆盖率 (0-1)
    beta: 共因故障比例 (0-1)
    t_proof: 验证测试间隔（小时）
    """
    # 单通道 PFH
    pfh_single = lambda_d * (1 - dc) * t_proof / 2
    
    # 考虑共因故障的双通道 PFH
    pfh_dual = (beta * lambda_d + (1 - beta) * lambda_d**2 * t_proof) * (1 - dc)
    
    # SIL 等级对应的 PFH 限值
    sil_limits = {
        1: 1e-5,  # SIL1: 10^-5 到 10^-6
        2: 1e-6,  # SIL2: 10^-6 到 10^-7
        3: 1e-7,  # SIL3: 10^-7 到 10^-8
        4: 1e-8   # SIL4: 10^-8 到 10^-9
    }
    
    return pfh_dual

16.6.5 软件开发生命周期（V-Model）

符合 IEC 61508-3 的软件开发流程：

需求分析 ────────────────────> 验收测试
    │                              ↑
    ↓                              │
系统设计 ──────────────> 系统集成测试
    │                          ↑
    ↓                          │
模块设计 ────────────> 模块测试
    │                      ↑
    ↓                      │
编码实现 ──────────> 单元测试

每个阶段的安全活动：
- 需求：HAZOP, FMEA
- 设计：FTA, 安全分析
- 实现：编码标准（MISRA）
- 测试：覆盖率分析，故障注入
- 验证：独立 V&V

16.6.6 认证流程与文档

SIL 认证所需文档清单：

安全需求规范（SRS）
安全验证计划（SVP）
硬件故障容错分析
软件安全分析报告
测试报告与覆盖率分析
功能安全管理计划
安全案例（Safety Case）

认证机构评估要点：

开发流程符合性
技术措施充分性
文档完整性和一致性
独立评估和测试
配置管理和变更控制

16.7 本章小结

本章系统介绍了 ROS2 的安全性和诊断系统，涵盖了从基础安全框架到高级功能安全认证的完整知识体系：

关键概念总结

SROS2 安全框架
- 基于 DDS Security 规范，提供认证、授权、加密三重保护
- PKI 体系管理节点身份和访问权限
- 支持细粒度的话题、服务、参数访问控制
加密机制
- 对称加密保护数据传输：AES-GCM、ChaCha20-Poly1305
- 非对称加密进行密钥交换：RSA、ECDSA、EdDSA
- 消息认证码（MAC）确保完整性
诊断系统架构
- 标准化的诊断消息格式
- 分层的诊断聚合器设计
- 实时健康监控和故障检测
故障处理策略
- 多级故障恢复机制
- 优雅降级和故障隔离
- 紧急停止和安全状态转换
功能安全认证
- SIL 等级评估：$\text{SIL} = f(\text{Severity}, \text{Frequency}, \text{Probability}, \text{Avoidance})$
- 危险故障概率计算：$\text{PFH} = \beta \lambda_d + (1-\beta)\lambda_d^2 t_{proof}(1-DC)$
- V-Model 开发流程和独立验证

关键公式回顾

诊断覆盖率（DC）： $DC = \frac{\lambda_{dd}}{\lambda_{d}} = \frac{\text{检测到的危险故障率}}{\text{总危险故障率}}$
平均危险故障时间（MTTF_d）： $MTTF_d = \frac{1}{\lambda_d \cdot (1 - DC)}$
系统可用性（A）： $A = \frac{MTBF}{MTBF + MTTR} = \frac{\text{平均故障间隔时间}}{\text{平均故障间隔时间} + \text{平均修复时间}}$
冗余系统可靠性（并联）： $R_{system} = 1 - \prod_{i=1}^{n}(1 - R_i)$
共因故障因子（β）影响： $\lambda_{sys} = \beta \cdot \lambda + (1-\beta) \cdot \frac{\lambda^2}{2 \cdot \mu}$

16.8 练习题

基础题

练习 16.1：设计一个 SROS2 权限配置文件，实现以下访问控制要求：

navigation 节点可以发布 /cmd_vel，订阅 /scan 和 /map
perception 节点可以发布 /scan，但不能控制机器人运动
monitor 节点只能订阅所有话题，不能发布

提示（Hint）

考虑使用 XML 格式的 permissions 文件，为每个节点创建独立的 grant 规则。注意区分 publish 和 subscribe 权限。

参考答案

创建三个独立的 grant 规则，每个节点对应一个。navigation 节点同时具有发布和订阅权限，perception 只有特定发布权限，monitor 使用通配符订阅所有话题。关键是正确设置 subject_name 和 allow_rule。

练习 16.2：实现一个诊断更新器，监控机器人电池状态，包括电压、电流、温度和剩余容量。当电压低于 20% 时报警，低于 10% 时触发紧急模式。

提示（Hint）

使用 diagnostic_updater 包，创建多个诊断任务函数。根据不同阈值设置 DiagnosticStatus 的级别（OK、WARN、ERROR）。

参考答案

创建 BatteryDiagnostics 类，包含 check_voltage、check_current、check_temperature 和 check_capacity 四个诊断函数。使用阈值判断设置不同的诊断级别，并在 summary 中提供清晰的状态描述。

练习 16.3：计算一个安全功能的 SIL 等级，给定条件：可能造成永久性伤害（S3），频繁暴露（F2），危险发生概率高（P2），几乎不可能避免（A2）。

提示（Hint）

使用 IEC 61508 的风险图方法，根据四个参数查找对应的 SIL 等级。S3 表示严重伤害，需要较高的安全完整性。

参考答案

根据风险矩阵，S3 + F2 + P2 + A2 的组合对应 SIL3 级别。这意味着该安全功能的危险故障概率必须低于 10^-7 到 10^-8 每小时。

挑战题

练习 16.4：设计一个分布式故障检测系统，能够检测以下异常：

节点崩溃（3 秒内无心跳）
网络分区（节点间通信中断）
时钟不同步（时间偏差 > 100ms）
Byzantine 故障（节点发送矛盾信息）

提示（Hint）

考虑使用心跳机制、双向通信检查、NTP 时间同步监控，以及消息一致性验证。可能需要实现投票机制处理 Byzantine 故障。

参考答案

实现包含四个子系统：1) 心跳监控器使用定时器和超时检测；2) 网络拓扑监控通过全连接测试检测分区；3) 时间同步监控比较各节点时间戳；4) Byzantine 检测通过 2f+1 投票机制，其中 f 是可容忍的故障节点数。整体采用事件驱动架构，异常触发相应的恢复策略。

练习 16.5：为一个协作机器人设计符合 ISO 10218 标准的安全系统，包括：

速度和分离监控（SSM）
功率和力限制（PFL）
安全额定监控停止（SOS）
紧急停止（Category 0 和 Category 1）

提示（Hint）

ISO 10218 定义了工业机器人的安全要求。考虑传感器冗余、安全控制器、独立的安全回路。Category 0 是立即断电，Category 1 是受控停止后断电。

参考答案

设计包括：1) SSM 使用激光扫描仪和视觉系统监控人机距离，动态调整速度；2) PFL 通过力/力矩传感器和电流监控限制接触力在 150N 以下；3) SOS 保持位置伺服但禁止运动命令；4) 紧急停止采用硬件安全继电器，Category 0 直接切断动力，Category 1 先减速到零再断电。所有安全功能通过独立的安全 PLC 实现，满足 PLd 性能等级。

练习 16.6：实现一个符合 21 CFR Part 11 的审计日志系统，要求：

电子签名和时间戳
防篡改（使用哈希链）
自动备份和归档
审计追踪报告生成

提示（Hint）

21 CFR Part 11 是 FDA 对电子记录和电子签名的规定。需要考虑数据完整性、可追溯性和长期保存。哈希链确保记录顺序不可更改。

参考答案

实现包括：1) 每条记录包含 UUID、时间戳、用户 ID、操作描述和数字签名；2) 使用 SHA-256 哈希链，每条记录包含前一条的哈希值；3) 实时复制到远程服务器，定期归档到不可更改介质；4) 提供查询接口生成合规报告，包括用户活动、系统变更、数据访问等。所有敏感数据使用 AES-256 加密存储。

练习 16.7：分析一个 SIL2 安全功能的硬件架构，给定组件故障率：

传感器：λ = 10^-6 /h，诊断覆盖率 90%
逻辑控制器：λ = 5×10^-7 /h，诊断覆盖率 95%
执行器：λ = 2×10^-6 /h，诊断覆盖率 85% 计算系统的 PFH 值，并判断是否满足 SIL2 要求。

提示（Hint）

SIL2 要求 PFH 在 10^-6 到 10^-7 之间。考虑使用 1oo2（二选一）或 2oo3（三选二）架构提高可靠性。共因故障因子 β 通常取 0.02-0.1。

参考答案

单通道 PFH = (10^-6 × 0.1) + (5×10^-7 × 0.05) + (2×10^-6 × 0.15) = 4.25×10^-7 /h，满足 SIL2 但接近上限。采用 1oo2 架构并考虑 β=0.05 的共因故障，双通道 PFH ≈ 0.05×4.25×10^-7 + 0.95×(4.25×10^-7)^2×8760×0.5 ≈ 2.13×10^-8 /h，充分满足 SIL2 要求并接近 SIL3。

练习 16.8：设计一个机器人系统的优雅降级策略，系统包含激光雷达、相机、IMU、编码器四个传感器。定义在不同传感器失效组合下的降级模式和功能限制。

提示（Hint）

考虑传感器的互补性和冗余性。激光雷达和相机可以互为备份进行障碍检测，IMU 和编码器可以融合进行定位。定义清晰的降级级别和触发条件。

参考答案

降级策略分为四级： 1. **正常模式**（所有传感器正常）：全功能，最高速度 2m/s 2. **降级 1**（相机或激光雷达之一失效）：降速至 1m/s，增加安全距离，使用剩余传感器 3. **降级 2**（IMU 或编码器失效，或感知传感器都失效）：仅限已知环境导航，速度 0.5m/s，禁止自主探索 4. **安全模式**（多重传感器失效）：立即停止，仅允许远程遥控，等待维护每级转换包含状态验证、参数调整和操作员通知。实现自动恢复检测，传感器恢复后可以升级运行模式。

16.9 常见陷阱与错误

安全配置错误

过度信任默认配置
- ❌ 错误：直接使用 DDS 默认配置投入生产
- ✅ 正确：明确配置安全策略，禁用不必要的功能
密钥管理不当
- ❌ 错误：将私钥存储在代码仓库中
- ✅ 正确：使用密钥管理服务，定期轮换密钥
权限过度授予
- ❌ 错误：为方便起见给节点授予所有权限
- ✅ 正确：遵循最小权限原则，仅授予必要权限

诊断系统陷阱

诊断频率不当
- ❌ 错误：诊断检查频率过高导致系统负载过重
- ✅ 正确：根据故障模式合理设置检查频率
忽略诊断级联
- ❌ 错误：独立处理每个诊断信息
- ✅ 正确：识别故障传播路径，避免误报风暴
缺少诊断自检
- ❌ 错误：假设诊断系统本身不会失效
- ✅ 正确：实现诊断系统的自检机制

故障处理误区

恢复策略过于激进
- ❌ 错误：检测到故障立即重启所有服务
- ✅ 正确：分级恢复，从最小干预开始
忽略故障关联性
- ❌ 错误：独立处理每个故障
- ✅ 正确：分析根因，避免处理症状而非原因
缺少故障隔离
- ❌ 错误：一个模块故障导致整个系统崩溃
- ✅ 正确：实现故障域隔离，限制故障传播

功能安全误解

混淆 SIL 和 PL
- ❌ 错误：将 IEC 61508 的 SIL 和 ISO 13849 的 PL 互换使用
- ✅ 正确：根据应用领域选择正确的标准
忽视共因故障
- ❌ 错误：简单复制组件认为就实现了冗余
- ✅ 正确：考虑共因故障，实现多样性设计
过度依赖软件安全
- ❌ 错误：仅通过软件实现所有安全功能
- ✅ 正确：关键安全功能需要独立的硬件回路

16.10 最佳实践检查清单

安全架构设计

威胁建模：完成 STRIDE 或 DREAD 威胁分析
安全边界：明确定义可信区域和攻击面
深度防御：实现多层安全控制
最小权限：每个组件仅获得必要权限
安全默认：默认配置即为安全配置

加密与认证

算法选择：使用标准加密算法，避免自创算法
密钥长度：RSA ≥ 2048 位，AES ≥ 128 位
密钥轮换：建立定期密钥更新机制
证书管理：实现证书过期和撤销处理
安全存储：使用 HSM 或 TPM 保护密钥

诊断系统

覆盖完整：所有关键组件都有诊断监控
分级告警：区分信息、警告、错误、严重级别
可操作性：诊断信息包含问题描述和建议操作
历史记录：保存诊断历史用于趋势分析
性能影响：诊断开销 < 5% CPU 使用率

故障处理

故障检测：检测时间满足安全需求
故障隔离：防止故障级联传播
故障恢复：定义清晰的恢复策略和优先级
故障记录：详细记录故障信息用于分析
故障测试：通过故障注入验证处理机制

功能安全合规

标准选择：选择适用的功能安全标准
危害分析：完成 HAZOP 或 FMEA 分析
安全需求：明确定义安全功能和性能
验证计划：制定全面的验证和确认计划
文档完整：维护完整的安全生命周期文档

运维和维护

监控告警：7×24 小时系统监控
应急响应：建立安全事件响应流程
定期审计：定期安全审计和渗透测试
补丁管理：及时应用安全补丁
备份恢复：定期测试备份和恢复流程

培训和意识

安全培训：团队成员接受安全培训
操作手册：提供清晰的安全操作指南
事故学习：从事故中学习并改进
安全文化：建立安全优先的团队文化
持续改进：定期评审和改进安全措施