database_tutorial

第7章：分布式事务

分布式事务是现代数据库系统面临的最具挑战性的问题之一。当数据分散在多个节点上时，如何保证事务的ACID特性变得极其复杂。本章将深入探讨分布式事务的核心协议、共识算法以及工业界的创新解决方案。我们将从经典的两阶段提交开始，逐步深入到Google Spanner的TrueTime和Calvin的确定性执行模型，帮助读者全面理解分布式事务的理论基础和实践技术。

7.1 两阶段提交（2PC）与三阶段提交（3PC）

7.1.1 两阶段提交协议详解

两阶段提交（Two-Phase Commit, 2PC）是分布式事务的基础协议。它通过一个协调者（Coordinator）和多个参与者（Participants）的交互来保证事务的原子性。尽管2PC存在诸多限制，但由于其概念简单、实现直观，至今仍是许多分布式系统的核心组件。

协议流程：

   协调者                     参与者1                    参与者2
      |                          |                          |
      |--------- PREPARE ------->|                          |
      |--------- PREPARE ---------------------------------->|
      |                          |                          |
      |<-------- VOTE YES -------|                          |
      |<-------- VOTE YES ----------------------------------|
      |                          |                          |
      |--------- COMMIT -------->|                          |
      |--------- COMMIT ----------------------------------->|
      |                          |                          |
      |<-------- ACK ------------|                          |
      |<-------- ACK ---------------------------------------|

第一阶段（准备阶段）：

协调者向所有参与者发送PREPARE消息，包含事务ID和操作内容
参与者执行事务操作但不提交，将Undo和Redo信息写入日志
参与者获取所需的锁，确保事务可以提交
参与者回复VOTE_YES（准备就绪）或VOTE_NO（无法执行）

第二阶段（提交阶段）：

如果所有参与者都回复YES，协调者写入COMMIT记录到日志，然后发送COMMIT消息
如果任何参与者回复NO或超时，协调者写入ABORT记录，发送ABORT消息
参与者根据协调者的决定执行提交或回滚，释放所有锁
参与者发送ACK确认执行完成

日志记录要求：

协调者日志：
- START_2PC: 事务开始
- COMMIT/ABORT: 全局决定
- END_2PC: 事务结束

参与者日志：
- READY: 投票YES前必须持久化
- COMMIT/ABORT: 收到决定后记录
- DONE: 本地执行完成

故障恢复机制：

协调者故障恢复：
- 检查日志中的决定记录
- 如有COMMIT/ABORT，重发给未确认的参与者
- 如无决定记录，可以安全地ABORT
参与者故障恢复：
- 如果有COMMIT/ABORT记录，按记录执行
- 如果只有READY记录，询问协调者或其他参与者
- 如果没有READY记录，可以单方面ABORT

关键性质：

阻塞性：参与者在投票后必须等待协调者的决定，持有锁不能释放
单点故障：协调者失败会导致整个系统阻塞，参与者处于不确定状态
网络分区敏感：网络故障可能导致部分参与者长时间等待

7.1.2 三阶段提交协议

三阶段提交（Three-Phase Commit, 3PC）通过引入额外的准备提交阶段来减少阻塞。3PC的核心思想是在2PC的基础上增加一个”预提交”阶段，让参与者在真正提交前就知道全局决定的趋势，从而在某些故障场景下能够自主决策。

协议流程：

阶段1: CanCommit
   协调者 -> 参与者: CAN_COMMIT?
   参与者 -> 协调者: YES/NO

阶段2: PreCommit  
   协调者 -> 参与者: PRE_COMMIT (如果都是YES)
                     或 ABORT (如果有NO)
   参与者: 执行事务，进入准备状态
   参与者 -> 协调者: ACK

阶段3: DoCommit
   协调者 -> 参与者: DO_COMMIT 或 DO_ABORT
   参与者: 提交或回滚事务
   参与者 -> 协调者: ACK

详细流程分析：

CanCommit阶段（询问阶段）：
- 协调者询问所有参与者是否可以提交
- 参与者检查资源可用性，但不执行操作
- 这是一个轻量级的可行性检查
- 超时默认为NO（保守策略）
PreCommit阶段（预提交阶段）：
- 如果所有参与者都回复YES，协调者发送PRE_COMMIT
- 参与者执行事务操作，写入redo/undo日志
- 参与者进入PREPARED状态并持有锁
- 如果协调者超时未收到回复，发送ABORT
DoCommit阶段（提交阶段）：
- 协调者发送DO_COMMIT（全部ACK）或DO_ABORT（有超时）
- 参与者执行最终的提交或回滚
- 释放所有资源和锁

超时处理机制：

参与者超时规则：
- CanCommit后超时 → 中止事务
- PreCommit后超时 → 提交事务（假设成功）
- DoCommit等待超时 → 根据状态决定

协调者超时规则：
- 阶段1超时 → 发送ABORT
- 阶段2超时 → 发送DO_ABORT  
- 阶段3超时 → 重发消息

3PC的改进：

引入超时机制：参与者在等待超时后可以根据当前状态自主决定
减少阻塞时间：通过预提交阶段降低不确定性窗口
提高可用性：协调者故障后，参与者可以通过选举新协调者继续
状态信息更丰富：三个阶段提供了更细粒度的进度信息

3PC的局限：

延迟增加：三轮消息交互，延迟比2PC高50%
网络分区问题：在网络分区情况下仍可能违反一致性
实现复杂度高：状态机更复杂，故障处理情况更多
理论与实践差距：理论上非阻塞，实践中仍有阻塞场景

7.1.3 2PC vs 3PC 权衡分析

详细对比表：

特性	2PC	3PC
消息轮次	2轮	3轮
延迟（局域网）	~10ms	~15ms
延迟（广域网）	~200ms	~300ms
阻塞特性	阻塞协议	非阻塞（理论上）
网络分区容忍	差	略好但仍有问题
实现复杂度	简单	复杂
状态数量	3个状态	5个状态
日志开销	较少	较多
故障恢复	需要协调者	可选举新协调者
工业应用	广泛	较少

性能分析：

2PC总延迟 = 2 * RTT + 2 * 日志写入 + 事务执行
3PC总延迟 = 3 * RTT + 3 * 日志写入 + 事务执行

局域网(RTT=1ms)：
  2PC: 2ms + 20ms + T ≈ 22ms + T
  3PC: 3ms + 30ms + T ≈ 33ms + T
  
广域网(RTT=50ms)：
  2PC: 100ms + 20ms + T ≈ 120ms + T  
  3PC: 150ms + 30ms + T ≈ 180ms + T

故障场景分析：

协调者故障：
- 2PC：参与者无限期阻塞，需要人工干预
- 3PC：参与者可根据状态超时决定，减少阻塞
参与者故障：
- 2PC：其他参与者不受影响，协调者超时处理
- 3PC：类似2PC，但有更多状态需要处理
网络分区：
- 2PC：可能导致长时间阻塞
- 3PC：可能导致不一致（分区两侧做出不同决定）

实践中的选择：

决策树：
├─ 局域网环境？
│  ├─ 是 → 2PC（简单可靠）
│  └─ 否 → 继续评估
├─ 可以容忍阻塞？
│  ├─ 是 → 2PC（成熟方案）
│  └─ 否 → 继续评估
├─ 需要强一致性？
│  ├─ 是 → Paxos/Raft（避免3PC）
│  └─ 否 → 最终一致性方案

Rule of Thumb：

局域网OLTP：使用2PC，简单可靠，延迟可接受
跨数据中心：避免2PC/3PC，使用Paxos/Raft
高可用要求：使用Paxos/Raft而非3PC
简单场景：优先2PC，成熟度高，问题已知
补偿可行：考虑Saga等最终一致性方案

为什么3PC应用少：

复杂度高但收益有限
网络分区下仍可能不一致
Paxos/Raft提供了更好的替代方案
额外的消息轮次增加了延迟

7.2 Paxos与Raft共识算法

7.2.1 Paxos算法原理

Paxos是Leslie Lamport提出的分布式共识算法，解决了在异步网络中达成一致的问题。Paxos的重要性在于它第一次以严格的数学证明展示了在异步网络和节点可能失败的环境下，如何达成共识。

核心角色：

Proposer：提出提案的节点，负责推动共识过程
Acceptor：接受或拒绝提案的节点，存储共识状态
Learner：学习最终决定的节点，不参与投票

基本Paxos流程：

Phase 1a: Prepare
   Proposer -> Acceptors: PREPARE(n)
   
Phase 1b: Promise  
   Acceptor -> Proposer: PROMISE(n, accepted_proposal)
   
Phase 2a: Accept
   Proposer -> Acceptors: ACCEPT(n, value)
   
Phase 2b: Accepted
   Acceptor -> Proposer/Learners: ACCEPTED(n, value)

详细协议说明：

Phase 1 (准备阶段)：

Proposer选择提案编号n，发送PREPARE(n)给多数派Acceptor

Acceptor收到PREPARE(n)后：
  if n > max_prepared:
    max_prepared = n
    回复PROMISE(n, accepted_id, accepted_value)
    承诺：不再接受编号 < n 的PREPARE请求
          不再接受编号 < n 的ACCEPT请求
  else:
    忽略或回复NACK

Phase 2 (接受阶段)：

Proposer收到多数派PROMISE后：
  if 存在已接受的值:
    value = 编号最大的已接受值
  else:
    value = 自己的提议值
  发送ACCEPT(n, value)给Acceptor

Acceptor收到ACCEPT(n, value)后：
  if n >= max_prepared:
    accepted_id = n
    accepted_value = value
    回复ACCEPTED(n, value)
  else:
    忽略或回复NACK

关键不变式：

提案编号唯一性：每个提案有全局唯一递增的编号
Promise约束：Acceptor承诺不再接受编号小于n的提案
多数派原则：任意两个多数派必有交集，保证一致性
值的不变性：一旦某个值被选定，后续提案必须提议相同的值

正确性证明核心：

定理：如果值v在提案n0被选定，则所有编号 > n0的提案都必须提议值v

证明思路：
v被选定 → 多数派Acceptor接受了(n0, v)
任何后续提案n > n0要成功必须获得多数派Promise
两个多数派必有交集，至少一个Acceptor接受了(n0, v)
该Acceptor会在Promise中报告(n0, v)
Proposer必须选择v作为提议值

Multi-Paxos优化：

基本Paxos每次只能确定一个值，Multi-Paxos通过以下优化支持日志复制：

Leader选举：
- 选举稳定的Leader作为唯一Proposer
- 消除Phase 1的开销（Leader续约）
- 减少提案冲突
批量处理：
- 一次Phase 1为多个日志槽位预留
- 后续直接执行Phase 2
- 显著减少消息开销
流水线：
- 并行处理多个日志项
- 不等待前一项完成就开始下一项
- 提高吞吐量

实现考虑：

提案编号生成：
  proposal_id = (round_number << 16) | node_id
  保证全局唯一且递增

持久化要求：
  Acceptor必须持久化：
  - max_prepared
  - accepted_id
  - accepted_value
  
故障恢复：
  从持久化状态恢复，继续参与协议

7.2.2 Raft算法简化设计

Raft通过强Leader和日志复制简化了Paxos的复杂性。

核心概念：

Leader选举：通过超时机制触发选举
日志复制：Leader负责日志项的分发
安全性：通过限制条件保证一致性

状态机：

         开始
           |
           v
      [Follower] <--------+
           |              |
     超时无心跳           |
           |              |
           v              |
      [Candidate] --------+
           |         获得多数票
      成为Leader          |
           |              |
           v              |
       [Leader] ----------+
                    发现更高任期

日志复制过程：

客户端请求到达Leader
Leader将命令追加到日志
Leader并行发送AppendEntries给Followers
多数派复制成功后，Leader提交该日志项
Leader通知Followers提交

Raft的优势：

可理解性：算法分解为独立的子问题
实用性：提供了完整的系统设计
正确性：有形式化证明

7.2.3 Paxos vs Raft 对比

特性	Paxos	Raft
理论完备性	强	强
实现难度	高	中
Leader角色	可选	必需
日志压缩	需额外设计	内置快照
成员变更	复杂	相对简单

Rule of Thumb：

新系统优先考虑Raft（易理解、易实现）
需要极致性能时考虑优化的Multi-Paxos
无Leader场景考虑EPaxos等变种

7.3 Google Spanner的TrueTime

7.3.1 全局时钟问题

分布式系统中的时间同步是一个根本性挑战。传统解决方案依赖逻辑时钟（Lamport时钟、向量时钟），但无法提供真实的全局时间顺序。

物理时钟的挑战：

时钟漂移：不同节点的时钟速率不同
时钟偏差：节点间的时间差异
NTP限制：网络时间协议精度有限（毫秒级）

Spanner的创新： 使用原子钟和GPS接收器构建TrueTime API，提供有界误差的全局时间。

7.3.2 TrueTime API设计

TrueTime不返回单一时间点，而是返回时间区间：

TT.now() -> [earliest, latest]
TT.after(t) -> bool  // 当前时间是否确定晚于t
TT.before(t) -> bool // 当前时间是否确定早于t

误差界限：

典型误差：ε ≈ 1-7ms
最坏情况：ε < 10ms
通过原子钟和GPS保证精度

时间主服务器架构：

     GPS接收器 ─────┬───── 原子钟
          │         │         │
          v         v         v
      时间主服务器  时间主服务器  时间主服务器
          │         │         │
          └─────┬───┴─────────┘
                │
                v
          Spanner服务器

7.3.3 外部一致性实现

Spanner使用TrueTime实现外部一致性（External Consistency）：如果事务T1在T2开始前提交，则T1的时间戳小于T2。

提交等待（Commit Wait）：

获取提交时间戳 s = TT.now().latest
等待直到 TT.after(s) == true
释放锁并响应客户端

等待时间分析：

平均等待：ε/2 ≈ 3.5ms
最坏等待：ε ≈ 7ms
通过批处理摊销开销

快照读优化：

使用时间戳确定快照点
无需锁即可读取一致快照
支持全球一致的只读事务

7.3.4 TrueTime的影响

优势：

简化分布式事务语义
提供全球一致的快照
支持外部一致性保证

代价：

需要专门硬件（原子钟/GPS）
引入提交等待延迟
依赖时间同步基础设施

Rule of Thumb：

全球部署需要类TrueTime机制
单数据中心可用逻辑时钟替代
读多写少场景特别适合快照读

7.4 Calvin与确定性数据库

7.4.1 确定性执行模型

Calvin采用确定性执行策略，通过预先确定事务执行顺序来避免分布式协调开销。

核心思想：

所有副本以相同顺序执行相同事务
事务执行结果完全由输入决定
无需运行时协调即可保证一致性

架构组件：

   Sequencer层（排序）
        │
        v
   Scheduler层（调度）
        │
        v
   Storage层（执行）

7.4.2 事务调度器设计

Sequencer功能：

收集事务请求
分配全局唯一时间戳
将事务批次广播给所有副本

批处理优化：

批次大小选择：
- 小批次：低延迟，高开销
- 大批次：高吞吐，高延迟
- 典型值：10ms epoch

Scheduler功能：

分析事务依赖关系
构建依赖图
确定并行执行计划

锁管理策略：

预先获取所有锁（避免死锁）
按确定性顺序申请锁
支持读写锁优化

7.4.3 性能优化策略

预取优化：

在锁等待期间预取数据
减少I/O阻塞时间
提高CPU利用率

分区策略：

将数据分区以减少跨分区事务
使用一致性哈希分配数据
动态调整分区边界

确定性重放：

故障恢复通过重放事务日志
无需复杂的恢复协议
支持快速故障切换

7.4.4 Calvin vs 传统方案

特性	Calvin	传统2PL	Spanner
协调开销	低	高	中
确定性	是	否	否
灵活性	低	高	高
故障恢复	简单	复杂	中等

适用场景：

OLTP工作负载
可预测的访问模式
跨地域复制需求

Rule of Thumb：

事务模式固定时优先考虑Calvin
需要灵活查询时选择传统方案
追求简单性时Calvin有优势

7.5 分布式死锁处理

7.5.1 分布式死锁的挑战

分布式环境下的死锁检测和处理比单机系统复杂得多：

额外复杂性：

全局状态难以获取：等待图分散在多个节点
消息延迟：检测算法受网络延迟影响
幻象死锁：由于消息延迟造成的虚假死锁
检测开销：全局协调代价高昂

7.5.2 死锁检测算法

集中式检测：

   节点1 ──┐
   节点2 ──┼──> 死锁检测器 ──> 全局等待图
   节点3 ──┘

算法步骤：

各节点周期性发送本地等待图
检测器合并构建全局等待图
检测环并选择牺牲者
通知相关节点中止事务

分布式检测（边追踪算法）：

探测消息格式：(initiator, sender, receiver)

T1@N1 等待 T2@N2
T2@N2 等待 T3@N3  
T3@N3 等待 T1@N1  <- 检测到环

路径推送算法：

每个事务维护依赖路径
路径信息随等待边传播
发现自己在路径中即检测到死锁

7.5.3 死锁预防策略

Wait-Die策略：

if (T_old 等待 T_young):
    允许等待
else (T_young 等待 T_old):
    T_young 中止（Die）

Wound-Wait策略：

if (T_old 等待 T_young):
    T_young 中止（Wound）
else (T_young 等待 T_old):
    允许等待

时间戳比较：

使用全局时间戳判断新旧
保证无死锁但可能造成饥饿
需要防止活锁

7.5.4 超时机制设计

静态超时：

固定超时时间 = BASE_TIMEOUT
if (等待时间 > 固定超时时间):
    中止事务

动态超时：

动态超时 = f(事务历史, 系统负载, 锁类型)
考虑因素：
- 事务已执行时间
- 持有资源数量  
- 历史平均等待时间
- 当前系统争用程度

超时时间选择： | 场景 | 建议超时 | 原因 | |——|———|——| | OLTP | 1-5秒 | 快速失败 | | OLAP | 30-60秒 | 复杂查询 | | 批处理 | 5-10分钟 | 长事务 |

7.5.5 死锁处理最佳实践

牺牲者选择策略：

最小工作量（已完成工作最少）
最少资源（持有锁最少）
最年轻事务（时间戳最新）
最低优先级

避免饥饿：

记录中止次数
提升多次中止事务的优先级
设置最大重试次数

Rule of Thumb：

OLTP系统优先使用超时机制（简单高效）
长事务系统考虑死锁检测（避免误杀）
高争用场景使用预防策略（避免死锁形成）
超时时间设为平均事务时间的2-3倍

7.6 本章小结

分布式事务是构建可靠分布式数据库系统的核心挑战。本章深入探讨了从经典协议到现代创新的各种解决方案：

关键要点：

2PC/3PC协议：经典但有局限性，2PC因简单性仍广泛使用，3PC理论优美但实践较少
共识算法：Paxos提供理论基础，Raft简化实现，两者都解决了分布式一致性的根本问题
TrueTime创新：通过硬件支持的全局时钟实现外部一致性，代价是特殊硬件和提交延迟
确定性执行：Calvin通过预定序列化避免协调开销，适合可预测的工作负载
死锁处理：分布式环境增加复杂性，实践中超时机制最常用

核心权衡：

一致性 vs 可用性：强一致性协议降低可用性
延迟 vs 吞吐量：批处理提高吞吐但增加延迟
简单性 vs 性能：简单方案易维护但可能性能不优
硬件 vs 软件：硬件方案（如TrueTime）性能好但成本高

选择指南：

局域网OLTP：2PC + 超时机制
跨地域部署：Raft/Paxos + 异步复制
全球一致性：Spanner模式（TrueTime + 2PC）
确定性负载：Calvin类方案
混合负载：分层架构，不同层使用不同策略

记住：没有完美的分布式事务方案，只有在特定场景下的最佳选择。理解各种方案的原理和权衡，才能做出正确的架构决策。

7.7 练习题

基础题

练习7.1：2PC协议分析 假设有一个协调者C和三个参与者P1、P2、P3执行2PC协议。如果在第一阶段P1和P2回复YES，P3回复NO，请描述完整的消息交互序列。

Hint: 考虑协调者收到NO后的决策和第二阶段的消息。

参考答案

消息序列： 1. 第一阶段： - C → P1: PREPARE - C → P2: PREPARE - C → P3: PREPARE - P1 → C: VOTE_YES - P2 → C: VOTE_YES - P3 → C: VOTE_NO 2. 第二阶段： - C → P1: ABORT - C → P2: ABORT - C → P3: ABORT - P1 → C: ACK - P2 → C: ACK - P3 → C: ACK 由于P3投了NO票，协调者必须发送ABORT给所有参与者，即使P1和P2都投了YES。

练习7.2：Raft日志复制 在一个5节点的Raft集群中，Leader有日志项[1,2,3,4,5]，其中项5刚刚从客户端接收。需要多少个Follower成功复制项5后，Leader才能提交它？解释原因。

Hint: 考虑Raft的多数派原则。

参考答案

需要2个Follower成功复制。原因： - 5节点集群的多数派是3个节点（⌈5/2⌉ + 1 = 3） - Leader本身算一个，所以还需要2个Follower - 只有当日志项被多数派节点持久化后才能提交 - 这保证了即使Leader故障，新Leader一定拥有已提交的日志项

练习7.3：TrueTime计算 如果TrueTime的误差界限ε=6ms，一个事务在真实时间t=1000ms开始，TT.now()返回[998, 1004]。该事务需要等待多久才能安全提交？

Hint: 考虑commit wait机制。

参考答案

需要等待6ms。计算过程： 1. 提交时间戳s = TT.now().latest = 1004ms 2. 需要等待直到TT.after(1004) = true 3. 当真实时间到达1004ms时，TT.now()最早返回[1004-6, 1004+6] = [998, 1010] 4. 此时TT.now().earliest = 998 < 1004，还不能确定已过1004 5. 当真实时间到达1010ms时，TT.now()返回[1004, 1016] 6. 此时TT.now().earliest = 1004 ≥ 1004，可以确定已过1004 7. 实际等待时间 = 1010 - 1004 = 6ms = ε

挑战题

练习7.4：分布式死锁场景设计 设计一个涉及3个节点的分布式死锁场景，其中每个节点上运行不同的事务。说明Wait-Die策略如何预防这个死锁。

Hint: 构造一个循环等待的场景，然后应用Wait-Die规则。

参考答案

死锁场景： - 节点N1: 事务T1(时间戳=10)持有资源R1，请求R2 - 节点N2: 事务T2(时间戳=20)持有资源R2，请求R3 - 节点N3: 事务T3(时间戳=30)持有资源R3，请求R1 形成循环等待：T1→T2→T3→T1 Wait-Die预防： 1. T1(10)请求R2，R2被T2(20)持有：T1更老，允许等待 2. T2(20)请求R3，R3被T3(30)持有：T2更老，允许等待 3. T3(30)请求R1，R1被T1(10)持有：T3更年轻，T3必须Die（中止） T3中止打破了循环，预防了死锁。T3会以新时间戳重启。

练习7.5：Calvin vs 2PC性能分析 假设一个跨3个数据中心的分布式事务，单程网络延迟为50ms。比较Calvin和2PC的延迟差异，假设Calvin的批次间隔为10ms。

Hint: 分析两种方案的消息往返次数。

参考答案

2PC延迟分析： - 第一阶段：1个RTT = 100ms（PREPARE + VOTE） - 第二阶段：1个RTT = 100ms（COMMIT + ACK） - 总延迟：200ms + 事务执行时间 Calvin延迟分析： - 批次收集：最多10ms - 序列广播：50ms（单向） - 确定性执行：0额外协调 - 总延迟：60ms + 事务执行时间 Calvin优势：140ms（减少70%延迟）注意事项： - Calvin需要事务预声明读写集 - 2PC可以处理动态事务 - Calvin批处理可能增加单个事务延迟

练习7.6：Paxos活锁问题 两个Proposer P1和P2同时尝试提出值。P1使用提案号1,3,5…，P2使用2,4,6…。描述可能出现的活锁情况，以及如何解决。

Hint: 考虑两个Proposer交替打断对方的情况。

参考答案

活锁场景： 1. P1发送PREPARE(1)，Acceptors承诺 2. P2发送PREPARE(2)，Acceptors承诺（拒绝提案1） 3. P1发送ACCEPT(1,v1)失败，因为Acceptors已承诺2 4. P1发送PREPARE(3)，Acceptors承诺（拒绝提案2） 5. P2发送ACCEPT(2,v2)失败，因为Acceptors已承诺3 6. 循环继续... 解决方案： 1. **随机退避**：失败后随机等待再重试 2. **Leader选举**：选出单一Proposer避免冲突 3. **提案号分配**：集中分配提案号避免竞争 4. **Multi-Paxos**：稳定Leader减少Phase 1 实践中Multi-Paxos最常用，通过稳定的Leader几乎消除活锁。

练习7.7：分布式事务架构选择 一个全球电商平台需要处理：(a)用户下单，(b)库存扣减，(c)支付处理，(d)物流通知。数据分布在多个地域。请设计事务处理方案，说明不同组件使用的协议。

Hint: 考虑不同操作的一致性要求和补偿机制。

参考答案

分层架构设计： 1. **核心事务（强一致性）**： - 库存扣减 + 订单创建 - 使用2PC或Spanner模式 - 原因：必须原子性，防止超卖 2. **支付处理（最终一致性）**： - 使用Saga模式 + 补偿事务 - 原因：涉及外部系统，可能长时间等待 - 补偿：支付失败则恢复库存 3. **物流通知（异步处理）**： - 使用消息队列 + 至少一次投递 - 原因：非关键路径，可延迟处理 - 幂等设计处理重复消息 4. **跨地域复制**： - 使用Raft维护副本一致性 - 读请求本地处理（快照读） - 写请求转发到Leader 关键设计点： - 将长事务拆分为多个短事务 - 核心业务强一致，外围业务最终一致 - 设计补偿机制处理部分失败 - 使用幂等性处理重试

练习7.8：TrueTime故障分析 如果Spanner集群中某个节点的GPS接收器故障，导致该节点时间误差增大到100ms，分析对系统的影响和处理策略。

Hint: 考虑TrueTime API的保证和故障检测。

参考答案

影响分析： 1. **误差检测**： - 节点通过与时间主服务器同步发现误差异常 - TrueTime API报告ε=100ms而非正常的6ms 2. **系统影响**： - Commit wait时间增加到100ms - 事务延迟显著增加 - 吞吐量下降 3. **处理策略**： a) **自动降级**： - 节点标记为不健康 - 不再接受写事务协调者角色 - 只参与作为副本 b) **故障转移**： - 将Leader角色转移到健康节点 - 重新平衡负载 c) **隔离处理**： - 如果无法修复，下线该节点 - 启动新节点替换 4. **预防措施**： - 多个时间源（GPS + 原子钟） - 定期校准和监控 - 设置误差阈值报警关键：TrueTime的正确性依赖误差界限的准确性，宁可报告大误差也不能低估误差。

7.8 常见陷阱与错误

陷阱1：2PC协调者单点故障

错误：假设协调者总是可用，没有处理协调者故障。后果：参与者无限期阻塞，系统停止服务。 正确做法：

实现协调者故障检测和接管机制
参与者超时后查询其他参与者状态
使用3PC或Paxos避免阻塞

陷阱2：网络分区下的脑裂

错误：多个节点同时认为自己是Leader。后果：数据不一致，违反事务语义。 正确做法：

使用多数派原则（Quorum）
实现节点围栏（Fencing）机制
Leader租约（Lease）避免双主

陷阱3：忽略时钟同步

错误：假设所有节点时钟精确同步。后果：基于时间戳的算法失效，事务顺序错误。 正确做法：

使用逻辑时钟（Lamport/Vector Clock）
采用TrueTime类似的有界误差方案
定期同步和监控时钟偏差

陷阱4：死锁检测的幻象

错误：分布式死锁检测将延迟解释为死锁。后果：错误中止正常事务，降低吞吐量。 正确做法：

设置合理的检测周期
使用多轮确认机制
优先使用超时而非复杂检测

陷阱5：补偿事务设计不当

错误：补偿逻辑没有考虑部分执行状态。后果：补偿失败或数据不一致。 正确做法：

记录每步执行状态
补偿操作必须幂等
考虑补偿失败的处理

陷阱6：忽略消息重复和乱序

错误：假设网络消息不重复、不乱序。后果：重复执行操作，状态机错误。 正确做法：

消息带序列号去重
操作设计为幂等
使用因果一致性协议

陷阱7：过度追求强一致性

错误：所有操作都使用分布式事务。后果：系统延迟高，可用性差。 正确做法：

分析业务真实需求
核心数据强一致，其他最终一致
使用异步和补偿替代同步事务

陷阱8：Calvin读写集估计错误

错误：事务执行时访问了未预声明的数据。后果：破坏确定性，导致副本不一致。 正确做法：

保守估计读写集
运行时验证访问范围
设计重试机制处理估计错误

调试技巧

分布式追踪：使用Zipkin/Jaeger追踪事务流程
日志聚合：集中收集所有节点日志便于分析
混沌工程：主动注入故障测试系统韧性
监控指标：跟踪事务成功率、延迟、冲突率
重放测试：记录生产流量用于问题重现

记住：分布式事务的复杂性在于故障模式的多样性。充分的测试、监控和故障演练是保证系统可靠性的关键。