bilibili_history

第11章：基础设施建设

从单机房到全球分布，B站基础设施的十五年演进之路

概述

B站的基础设施建设经历了从单体应用到分布式系统、从物理机到云原生、从单数据中心到全球部署的完整演进历程。本章将深入剖析B站在数据中心建设、容器化转型、服务网格实践、监控体系构建以及混合云架构等方面的技术演进与实践经验。

11.1 数据中心演进

11.1.1 第一代：单机房时代（2009-2012）

┌──────────────────────────────────────────┐
│          上海单机房架构                   │
├──────────────────────────────────────────┤
│  用户请求                                 │
│     ↓                                    │
│  电信/联通 双线BGP                       │
│     ↓                                    │
│  负载均衡（硬件F5）                      │
│     ↓                                    │
│  Web服务器集群（10台）                   │
│     ↓                                    │
│  MySQL主从（2台）                        │
│     ↓                                    │
│  文件存储（NFS）                         │
└──────────────────────────────────────────┘

技术特点：

托管于上海电信机房（漕河泾数据中心）
服务器规模：约20台物理服务器（Dell PowerEdge R410）
带宽：100Mbps独享，月成本约¥2万
存储：本地磁盘（500GB SATA） + NFS共享存储（2TB）
备份策略：每日全量备份到磁带（LTO-4）
运维团队：3人（徐逸亲自参与）

硬件配置详情： | 组件 | 规格 | 数量 | 用途 | |——|——|——|——| | Web服务器 | 双核Xeon, 8GB RAM | 10台 | PHP应用 | | 数据库服务器 | 四核Xeon, 16GB RAM | 2台 | MySQL主从 | | 存储服务器 | 四核Xeon, 8GB RAM | 1台 | NFS文件共享 | | 负载均衡 | F5 BIG-IP LTM 1600 | 1台 | 流量分发 | | 交换机 | Cisco 2960 | 2台 | 网络互联 |

运维实践：

监控：使用开源Nagios，主要监控服务器存活
部署：手工FTP上传代码，重启Apache生效
数据库：每晚3点执行mysqldump备份
日志：本地存储，定期手工清理
故障处理：电话通知，人工介入

主要挑战：

单点故障风险高：数据库宕机即服务中断
扩容困难：需要停机维护，影响用户体验
南北网络互通：电信联通互访延迟高达50ms
成本控制困难：带宽按月付费，无弹性
安全风险：缺乏DDoS防护，曾遭受攻击

11.1.2 第二代：多机房部署（2013-2016）

┌────────────────────────────────────────────────┐
│               多机房架构图                      │
├────────────────────────────────────────────────┤
│                                                │
│    ┌──────────┐        ┌──────────┐          │
│    │ 北京机房  │        │ 上海机房  │          │
│    │ (主)     │        │ (主)     │          │
│    └─────┬────┘        └────┬─────┘          │
│          │                   │                 │
│          └──────┬────────────┘                 │
│                 │                              │
│          ┌──────┴──────┐                      │
│          │  GSLB调度    │                      │
│          └──────┬──────┘                      │
│                 │                              │
│    ┌────────────┼────────────┐                │
│    │            │            │                │
│ ┌──┴───┐   ┌───┴──┐   ┌────┴───┐            │
│ │广州   │   │成都   │   │ 杭州    │            │
│ │边缘   │   │边缘   │   │ 边缘    │            │
│ └──────┘   └──────┘   └────────┘            │
└────────────────────────────────────────────────┘

技术升级：

引入GSLB（F5 GTM全局流量管理）实现智能DNS解析
实现双活数据中心，业务层面热备
部署边缘节点，就近服务用户
专线互联（10Gbps MPLS VPN）实现数据同步
引入CDN服务（网宿科技），缓解源站压力

机房建设详情：

机房位置	建设时间	机柜数	带宽	主要功能
上海张江	2013.03	20个	5Gbps	核心业务
北京酒仙桥	2013.09	15个	3Gbps	北方接入
广州科学城	2014.06	5个	1Gbps	华南加速
成都高新区	2015.03	3个	500Mbps	西南覆盖
杭州滨江	2015.11	8个	2Gbps	阿里云混合

数据同步架构：

MySQL主从同步：
上海(Master) ──GTID──> 北京(Slave)
     │                      │
     └──────Canal──────────┘
           │
    Kafka消息队列
           │
    ┌──────┴──────┐
    │             │
Redis缓存  ElasticSearch

技术栈升级：

负载均衡：F5 → HAProxy + LVS
数据库：MySQL 5.5 → MySQL 5.6（支持GTID）
缓存：Memcached → Redis Cluster
消息队列：自研 → Apache Kafka
监控：Nagios → Zabbix + Ganglia

关键数据： | 指标 | 2013年 | 2014年 | 2015年 | 2016年 | |——|——–|——–|——–|——–| | 机房数量 | 2个 | 3个 | 4个 | 5个 | | 服务器规模 | 100台 | 300台 | 600台 | 1000台 | | 总带宽 | 1Gbps | 5Gbps | 12Gbps | 20Gbps | | 存储容量 | 50TB | 200TB | 500TB | 1PB | | 月度成本 | ¥50万 | ¥150万 | ¥300万 | ¥500万 | | 日均PV | 500万 | 2000万 | 5000万 | 1亿 |

重要事件：

2013.10：首次实现异地双活，RTO降至5分钟
2014.02：春节期间扛住10倍流量峰值
2015.07：与网宿科技签署CDN战略合作
2016.01：完成IPv6改造试点

11.1.3 第三代：自建IDC时代（2017-2020）

战略决策背景：

2016年用户爆发式增长，IDC租用成本急剧上升
陈睿推动”基础设施自主可控”战略
获得D轮融资¥15亿，专项用于基建投入

自建数据中心规格：

┌─────────────────────────────────────────────────┐
│            B站自建IDC架构                       │
├─────────────────────────────────────────────────┤
│                                                 │
│  核心数据中心（Tier3+）                         │
│  ├─ 上海青浦DC：5000机柜                       │
│  ├─ 北京亦庄DC：3000机柜                       │
│  └─ 深圳观澜DC：2000机柜                       │
│                                                 │
│  边缘数据中心                                   │
│  ├─ 覆盖城市：20+                              │
│  ├─ 节点数量：50+                              │
│  └─ 缓存容量：10PB+                            │
│                                                 │
│  技术特性                                       │
│  ├─ PUE值：< 1.3                               │
│  ├─ 供电：2N冗余                               │
│  ├─ 制冷：N+1冗余                              │
│  ├─ 网络：多运营商BGP                          │
│  └─ 安全：ISO27001认证                         │
└─────────────────────────────────────────────────┘

上海青浦数据中心详细规格：

建设参数：
├─ 占地面积：30000平方米
├─ 建筑面积：50000平方米
├─ 总投资：¥8亿
├─ 建设周期：18个月（2017.03-2018.09）
├─ 设计寿命：25年

电力系统：
├─ 市电接入：双路110kV
├─ 变压器：20台×2500kVA
├─ UPS配置：2N冗余，单机2000kVA
├─ 柴发配置：N+1，单机2000kW
├─ 电池后备：15分钟

制冷系统：
├─ 制冷方式：水冷+自然冷却
├─ 冷机配置：8台×1200RT离心机
├─ 末端形式：列间空调+冷通道封闭
├─ 全年PUE：1.25（利用自然冷却180天/年）

服务器采购策略：

年份	服务器型号	采购数量	单价	主要用途
2017	Dell R730	2000台	¥3.5万	Web/API服务
2018	浪潮NF5280M5	3000台	¥3万	视频转码
2019	华为2288H V5	5000台	¥2.8万	通用计算
2020	自研白牌服务器	8000台	¥2万	存储/缓存

网络架构设计：

┌─────────────────────────────────────────┐
│          数据中心网络拓扑                │
├─────────────────────────────────────────┤
│                                         │
│  互联网接入层                           │
│  ├─ 电信：100G×2                       │
│  ├─ 联通：100G×2                       │
│  ├─ 移动：50G×2                        │
│  └─ BGP：全网段宣告                    │
│                                         │
│  核心层（Spine）                        │
│  ├─ 设备：华为CE12800×4                │
│  ├─ 带宽：100G QSFP28                  │
│  └─ 协议：OSPF + BGP                   │
│                                         │
│  汇聚层（Leaf）                         │
│  ├─ 设备：华为CE6800×48                │
│  ├─ 上联：4×25G                        │
│  └─ 下联：48×10G                       │
│                                         │
│  接入层（TOR）                          │
│  ├─ 设备：华为CE5855×500               │
│  ├─ 端口：48×1G + 4×10G                │
│  └─ 堆叠：IRF2虚拟化                   │
└─────────────────────────────────────────┘

自建vs租用成本对比：

项目	自建IDC	租用IDC	节省比例
机柜成本	¥3000/月	¥8000/月	62.5%
带宽成本	¥30/Mbps	¥80/Mbps	62.5%
电力成本	¥0.6/度	¥1.2/度	50%
运维人员	50人	10人	-400%
初期投资	¥15亿	0	-
总体TCO(5年)	¥20亿	¥32亿	37.5%

里程碑事件：

2017.03：上海青浦IDC开工建设
2018.03：纳斯达克上市，募资¥30亿
2018.09：青浦IDC一期投产，2000机柜
2019.06：北京亦庄IDC投产
2020.03：深圳观澜IDC投产
2020.12：服务器总量突破5万台

11.1.4 第四代：全球化部署（2021-至今）

┌──────────────────────────────────────────────────┐
│              全球基础设施布局                     │
├──────────────────────────────────────────────────┤
│                                                  │
│  亚太地区                                        │
│  ├─ 中国大陆：10个核心DC + 100+边缘节点          │
│  ├─ 香港：2个数据中心                           │
│  ├─ 新加坡：1个数据中心                         │
│  ├─ 日本东京：1个数据中心                       │
│  └─ 韩国首尔：边缘节点                          │
│                                                  │
│  北美地区                                        │
│  ├─ 美国西部（洛杉矶）：1个数据中心             │
│  ├─ 美国东部（弗吉尼亚）：1个数据中心           │
│  └─ 加拿大（多伦多）：边缘节点                  │
│                                                  │
│  欧洲地区                                        │
│  ├─ 德国法兰克福：1个数据中心                   │
│  └─ 英国伦敦：边缘节点                          │
│                                                  │
│  技术指标                                        │
│  ├─ 全球带宽储备：100Tbps+                      │
│  ├─ 服务器数量：10万+                           │
│  ├─ 存储容量：100PB+                            │
│  └─ 月活跃用户覆盖：200+国家和地区              │
└──────────────────────────────────────────────────┘

11.2 容器化与Kubernetes

11.2.1 容器化历程

阶段一：Docker探索期（2015-2016）

传统部署 vs Docker部署对比
┌────────────────┬────────────────┐
│   传统部署      │   Docker部署    │
├────────────────┼────────────────┤
│ 部署时间：30分钟 │ 部署时间：3分钟  │
│ 资源利用率：30% │ 资源利用率：70% │
│ 环境一致性：低  │ 环境一致性：高  │
│ 回滚时间：1小时 │ 回滚时间：30秒  │
└────────────────┴────────────────┘

阶段二：Kubernetes落地（2017-2018）

# B站早期K8s集群配置示例
apiVersion: v1
kind: Cluster
metadata:
  name: bilibili-prod-cluster
spec:
  version: 1.10
  nodes:
    master: 3
    worker: 100
  network:
    plugin: flannel
    cidr: 10.244.0.0/16
  storage:
    class: ceph-rbd
  monitoring:
    prometheus: enabled
    grafana: enabled

阶段三：规模化应用（2019-2020）

指标	2019年	2020年
K8s集群数	5个	20个
Pod总数	1万+	10万+
容器化比例	30%	70%
部署频率	100次/天	1000次/天
故障恢复时间	5分钟	30秒

11.2.2 K8s平台建设

B站Kubernetes平台架构：

┌──────────────────────────────────────────────┐
│          B站K8s平台架构（2024）              │
├──────────────────────────────────────────────┤
│                                              │
│  管控层                                      │
│  ├─ Kube-apiserver (多副本)                 │
│  ├─ Etcd集群 (7节点)                        │
│  └─ 调度器 (自研增强)                       │
│                                              │
│  计算层                                      │
│  ├─ 节点规模：5000+                         │
│  ├─ GPU节点：500+                           │
│  └─ 弹性节点：支持秒级扩缩容                │
│                                              │
│  网络层                                      │
│  ├─ CNI：Cilium (eBPF加速)                  │
│  ├─ Service Mesh：Istio                     │
│  └─ Ingress：自研BLB                        │
│                                              │
│  存储层                                      │
│  ├─ CSI：支持多种存储后端                   │
│  ├─ 本地存储：NVMe SSD                      │
│  └─ 分布式存储：Ceph/GlusterFS              │
│                                              │
│  可观测性                                    │
│  ├─ 日志：ELK Stack                         │
│  ├─ 监控：Prometheus + Thanos               │
│  ├─ 追踪：Jaeger                            │
│  └─ 告警：自研告警平台                      │
└──────────────────────────────────────────────┘

11.2.3 容器化最佳实践

1. 镜像优化策略：

# B站基础镜像优化示例
# 多阶段构建
FROM golang:1.20 AS builder
WORKDIR /app
COPY go.mod go.sum ./
RUN go mod download
COPY . .
RUN CGO_ENABLED=0 go build -o app

# 最小运行镜像
FROM alpine:3.18
RUN apk --no-cache add ca-certificates
COPY --from=builder /app/app /app
ENTRYPOINT ["/app"]

# 镜像大小对比
# 优化前：800MB
# 优化后：15MB

2. 资源管理策略：

应用类型	CPU Request	CPU Limit	Memory Request	Memory Limit
Web服务	0.5 Core	2 Core	512Mi	2Gi
API服务	1 Core	4 Core	1Gi	4Gi
数据处理	2 Core	8 Core	4Gi	16Gi
AI推理	4 Core	16 Core	8Gi	32Gi

3. 发布策略：

┌─────────────────────────────────────┐
│       容器化发布流程                 │
├─────────────────────────────────────┤
│                                     │
│  1. 代码提交                        │
│      ↓                             │
│  2. CI构建镜像                      │
│      ↓                             │
│  3. 镜像安全扫描                    │
│      ↓                             │
│  4. 推送至镜像仓库                  │
│      ↓                             │
│  5. 灰度发布（1%→10%→50%→100%）    │
│      ↓                             │
│  6. 健康检查                        │
│      ↓                             │
│  7. 自动回滚（如有异常）            │
└─────────────────────────────────────┘

11.3 服务网格（Service Mesh）

11.3.1 Service Mesh演进路径

阶段一：传统服务治理（2016-2018）

应用层服务治理模式：
┌──────────────────────────┐
│       业务代码           │
│  ┌──────────────────┐   │
│  │   服务治理SDK    │   │
│  │  - 服务发现      │   │
│  │  - 负载均衡      │   │
│  │  - 熔断限流      │   │
│  └──────────────────┘   │
└──────────────────────────┘

问题：
- SDK升级困难
- 多语言支持成本高
- 业务侵入性强

阶段二：Sidecar模式探索（2019-2020）

Sidecar代理模式：
┌─────────────────────────────────┐
│         Pod                     │
│  ┌─────────┐    ┌─────────┐   │
│  │业务容器 │←→│ Envoy   │   │
│  └─────────┘    │ Sidecar │   │
│                 └─────────┘   │
└─────────────────────────────────┘
        ↑               ↑
        │               │
    业务流量      控制平面

阶段三：Istio全面应用（2021-至今）

┌──────────────────────────────────────────┐
│         B站Service Mesh架构              │
├──────────────────────────────────────────┤
│                                          │
│  控制平面（Istio）                       │
│  ├─ Pilot：服务发现与配置管理            │
│  ├─ Citadel：证书管理与安全              │
│  ├─ Galley：配置校验与分发               │
│  └─ 自研组件：多租户管理                 │
│                                          │
│  数据平面（Envoy）                       │
│  ├─ 代理数量：10000+                     │
│  ├─ RPS：1000万+                         │
│  ├─ P99延迟：< 1ms                       │
│  └─ 配置热更新：秒级                     │
│                                          │
│  流量管理能力                            │
│  ├─ 灰度发布                            │
│  ├─ A/B测试                             │
│  ├─ 故障注入                            │
│  ├─ 超时重试                            │
│  └─ 熔断限流                            │
└──────────────────────────────────────────┘

11.3.2 Service Mesh实践案例

案例一：视频推荐服务改造

改造前后对比： | 指标 | 改造前 | 改造后 | 提升 | |——|——–|——–|——| | 服务调用延迟 | 10ms | 5ms | 50% | | 故障恢复时间 | 5分钟 | 30秒 | 90% | | 发布时长 | 2小时 | 20分钟 | 83% | | 运维复杂度 | 高 | 低 | - |

案例二：多语言服务互通

服务互通矩阵：
         Go    Java   Python  Node.js
    ┌────┬────┬──────┬────────┬─────────┐
Go  │ ✓  │ ✓  │  ✓   │   ✓    │    ✓    │
    ├────┼────┼──────┼────────┼─────────┤
Java│ ✓  │ ✓  │  ✓   │   ✓    │    ✓    │
    ├────┼────┼──────┼────────┼─────────┤
Python│✓ │ ✓  │  ✓   │   ✓    │    ✓    │
    ├────┼────┼──────┼────────┼─────────┤
Node│ ✓  │ ✓  │  ✓   │   ✓    │    ✓    │
    └────┴────┴──────┴────────┴─────────┘

通过Service Mesh实现协议转换和服务治理统一

11.4 监控与可观测性

11.4.1 监控体系演进

第一代：基础监控（2009-2013）

┌─────────────────────────────────┐
│      基础监控架构               │
├─────────────────────────────────┤
│                                 │
│  监控工具                       │
│  ├─ Nagios：主机监控           │
│  ├─ Cacti：网络流量            │
│  ├─ Zabbix：应用监控           │
│  └─ 脚本：自定义监控           │
│                                 │
│  监控指标                       │
│  ├─ CPU/内存/磁盘              │
│  ├─ 网络流量                   │
│  └─ 进程状态                   │
│                                 │
│  告警方式                       │
│  ├─ 邮件                       │
│  └─ 短信（重要告警）           │
└─────────────────────────────────┘

第二代：分布式监控（2014-2017）

┌──────────────────────────────────────────┐
│         分布式监控体系                    │
├──────────────────────────────────────────┤
│                                          │
│  数据采集层                              │
│  ├─ StatsD：应用指标采集                 │
│  ├─ Collectd：系统指标采集               │
│  ├─ Filebeat：日志采集                   │
│  └─ Tcpdump：网络抓包                    │
│                                          │
│  存储层                                  │
│  ├─ Graphite：时序数据                   │
│  ├─ ElasticSearch：日志存储              │
│  └─ MySQL：元数据                        │
│                                          │
│  展示层                                  │
│  ├─ Grafana：指标可视化                  │
│  ├─ Kibana：日志分析                     │
│  └─ 自研：业务大盘                       │
└──────────────────────────────────────────┘

第三代：云原生可观测性平台（2018-至今）

┌───────────────────────────────────────────────┐
│       B站可观测性平台架构（2024）             │
├───────────────────────────────────────────────┤
│                                               │
│  三大支柱                                     │
│  ┌─────────┬──────────┬──────────┐          │
│  │ Metrics │   Logs   │  Traces  │          │
│  └────┬────┴────┬─────┴────┬─────┘          │
│       │         │          │                 │
│  采集层                                       │
│  ├─ Prometheus：指标采集                     │
│  ├─ Loki：日志采集                          │
│  ├─ Jaeger：链路追踪                        │
│  └─ eBPF：内核级观测                        │
│                                               │
│  存储层                                       │
│  ├─ VictoriaMetrics：长期指标存储           │
│  ├─ ClickHouse：日志分析                    │
│  ├─ Cassandra：Trace存储                    │
│  └─ 对象存储：冷数据归档                    │
│                                               │
│  分析层                                       │
│  ├─ 异常检测：基于ML的智能告警              │
│  ├─ 根因分析：故障定位                      │
│  ├─ 容量预测：资源规划                      │
│  └─ 成本分析：优化建议                      │
│                                               │
│  可视化层                                     │
│  ├─ Grafana：统一展示                       │
│  ├─ 自研APM：应用性能管理                   │
│  └─ 移动端APP：随时监控                     │
└───────────────────────────────────────────────┘

11.4.2 关键监控指标体系

黄金指标（Golden Signals）：

指标类型	具体指标	阈值设定	告警级别
延迟(Latency)	P50 < 100ms	P99 < 1s	Warning: P99 > 500ms
流量(Traffic)	QPS	基线±30%	Critical: 基线±50%
错误(Errors)	错误率	< 0.1%	Critical: > 1%
饱和度(Saturation)	CPU/内存	< 80%	Critical: > 90%

业务指标监控：

┌──────────────────────────────────────┐
│        业务指标实时大盘               │
├──────────────────────────────────────┤
│                                      │
│  核心业务指标                        │
│  ├─ DAU：1.05亿（↑5%）              │
│  ├─ 视频播放量：32.5亿（↑8%）       │
│  ├─ 弹幕发送量：1.2亿（↑10%）       │
│  ├─ 直播在线：520万（↑3%）          │
│  └─ 支付成功率：99.95%              │
│                                      │
│  技术指标                            │
│  ├─ API成功率：99.99%               │
│  ├─ CDN命中率：95.5%                │
│  ├─ 数据库QPS：500万                │
│  ├─ 缓存命中率：98%                 │
│  └─ 服务可用性：99.995%             │
│                                      │
│  告警统计（最近24小时）              │
│  ├─ P0告警：0个                     │
│  ├─ P1告警：3个                     │
│  ├─ P2告警：15个                    │
│  └─ P3告警：48个                    │
└──────────────────────────────────────┘

11.4.3 智能化运维实践

AIOps平台架构：

┌─────────────────────────────────────────┐
│          B站AIOps平台                   │
├─────────────────────────────────────────┤
│                                         │
│  数据接入                               │
│  ├─ 监控数据：100TB/天                 │
│  ├─ 日志数据：1PB/天                   │
│  ├─ 事件数据：1000万/天                │
│  └─ 配置数据：CMDB                     │
│                                         │
│  智能分析引擎                           │
│  ├─ 异常检测                           │
│  │  ├─ 基于LSTM的时序异常              │
│  │  ├─ 基于孤立森林的离群点检测        │
│  │  └─ 基于规则的阈值检测              │
│  │                                      │
│  ├─ 根因定位                           │
│  │  ├─ 调用链分析                      │
│  │  ├─ 日志聚类                        │
│  │  └─ 变更关联                        │
│  │                                      │
│  └─ 故障预测                           │
│      ├─ 容量预测                        │
│      ├─ 故障概率评估                    │
│      └─ 性能趋势分析                    │
│                                         │
│  自动化响应                             │
│  ├─ 自动扩缩容                         │
│  ├─ 故障自愈                           │
│  ├─ 智能限流                           │
│  └─ 自动回滚                           │
└─────────────────────────────────────────┘

智能告警降噪效果：

时期	日均告警数	有效告警	噪音比例	MTTD	MTTR
2019年	10000+	500	95%	10分钟	30分钟
2020年	8000+	600	92.5%	5分钟	20分钟
2021年	5000+	700	86%	3分钟	15分钟
2022年	3000+	800	73%	2分钟	10分钟
2023年	1500+	900	40%	1分钟	5分钟
2024年	1000+	950	5%	30秒	3分钟

11.5 混合云架构

11.5.1 混合云战略

多云架构设计：

┌──────────────────────────────────────────────┐
│            B站混合云架构                     │
├──────────────────────────────────────────────┤
│                                              │
│  私有云（70%）                               │
│  ├─ 核心业务：视频、直播、社区               │
│  ├─ 数据存储：用户数据、内容数据             │
│  ├─ 优势：成本可控、数据安全                 │
│  └─ 规模：7万+服务器                         │
│                                              │
│  公有云（30%）                               │
│  ├─ 阿里云                                   │
│  │  ├─ 弹性计算：活动峰值                   │
│  │  ├─ CDN加速：内容分发                    │
│  │  └─ 大数据服务：EMR集群                  │
│  │                                           │
│  ├─ 腾讯云                                   │
│  │  ├─ 游戏服务：云游戏                     │
│  │  ├─ AI服务：语音识别                     │
│  │  └─ 存储服务：COS对象存储                │
│  │                                           │
│  ├─ AWS（海外）                              │
│  │  ├─ 全球加速：CloudFront                 │
│  │  ├─ 计算服务：EC2                        │
│  │  └─ 数据分析：Redshift                   │
│  │                                           │
│  └─ 华为云                                   │
│      ├─ 鲲鹏算力：ARM服务器                  │
│      └─ 5G边缘：MEC节点                      │
└──────────────────────────────────────────────┘

11.5.2 云管平台建设

统一云管平台功能：

┌─────────────────────────────────────────────┐
│          B站云管平台（BCloud）              │
├─────────────────────────────────────────────┤
│                                             │
│  资源管理                                   │
│  ├─ 多云资源统一纳管                       │
│  ├─ 资源池化管理                           │
│  ├─ 配额管理                               │
│  └─ 成本分析                               │
│                                             │
│  服务编排                                   │
│  ├─ IaC（基础设施即代码）                  │
│  ├─ 应用编排                               │
│  ├─ 工作流引擎                             │
│  └─ 蓝图管理                               │
│                                             │
│  运维管理                                   │
│  ├─ 统一监控                               │
│  ├─ 日志管理                               │
│  ├─ 告警管理                               │
│  └─ 自动化运维                             │
│                                             │
│  安全合规                                   │
│  ├─ 身份认证                               │
│  ├─ 权限管理                               │
│  ├─ 审计日志                               │
│  └─ 合规检查                               │
└─────────────────────────────────────────────┘

11.5.3 跨云容灾方案

两地三中心架构：

┌───────────────────────────────────────────────┐
│           两地三中心容灾架构                   │
├───────────────────────────────────────────────┤
│                                               │
│  上海（生产中心）                             │
│  ├─ 承载流量：60%                            │
│  ├─ 数据状态：主库                           │
│  └─ RPO：0                                   │
│                                               │
│  北京（同城灾备）                             │
│  ├─ 承载流量：40%                            │
│  ├─ 数据状态：实时同步                       │
│  └─ RTO：< 1分钟                             │
│                                               │
│  深圳（异地灾备）                             │
│  ├─ 承载流量：冷备                           │
│  ├─ 数据状态：准实时同步                     │
│  └─ RTO：< 30分钟                            │
│                                               │
│  容灾演练                                     │
│  ├─ 演练频率：季度                           │
│  ├─ 切换时间：< 5分钟                        │
│  └─ 数据验证：自动化                         │
└───────────────────────────────────────────────┘

容灾切换流程：

步骤	操作内容	预计耗时	责任人
1	故障确认	1分钟	NOC
2	启动应急预案	30秒	值班经理
3	流量切换	2分钟	网络工程师
4	数据库切换	3分钟	DBA
5	应用切换	2分钟	SRE
6	验证检查	2分钟	QA
7	对外通告	30秒	PR

11.5.4 成本优化实践

云资源成本优化策略：

┌──────────────────────────────────────────┐
│         成本优化措施及效果               │
├──────────────────────────────────────────┤
│                                          │
│  优化措施                                │
│  1. 预留实例购买                         │
│     节省：35%                            │
│                                          │
│  2. 竞价实例使用                         │
│     节省：70%（非核心业务）              │
│                                          │
│  3. 闲时资源调度                         │
│     节省：25%                            │
│                                          │
│  4. 冷数据归档                           │
│     节省：80%（存储成本）                │
│                                          │
│  5. 自动扩缩容                           │
│     节省：30%                            │
│                                          │
│  总体效果                                │
│  ├─ 2023年云成本：¥3.5亿                │
│  ├─ 优化后成本：¥2.1亿                  │
│  └─ 节省比例：40%                        │
└──────────────────────────────────────────┘

小结

B站的基础设施建设经历了从单机房到全球分布、从物理机到云原生、从被动监控到智能运维的完整演进过程。通过持续的技术投入和创新，B站构建了一套高可用、高性能、高弹性的基础设施体系，为业务的快速发展提供了坚实的技术支撑。

关键成就：

数据中心：从1个机房发展到全球100+节点
容器化：K8s集群规模达到5000+节点，容器化率超过90%
Service Mesh：覆盖核心服务，降低服务调用延迟50%
可观测性：构建三位一体监控体系，MTTR降至3分钟
混合云：实现多云统一管理，成本优化40%

未来，B站将继续深化云原生转型，探索边缘计算、Serverless等新技术，构建更加智能、高效的基础设施平台。