bilibili_history

第11章:基础设施建设

从单机房到全球分布,B站基础设施的十五年演进之路

概述

B站的基础设施建设经历了从单体应用到分布式系统、从物理机到云原生、从单数据中心到全球部署的完整演进历程。本章将深入剖析B站在数据中心建设、容器化转型、服务网格实践、监控体系构建以及混合云架构等方面的技术演进与实践经验。

11.1 数据中心演进

11.1.1 第一代:单机房时代(2009-2012)

┌──────────────────────────────────────────┐
│          上海单机房架构                   │
├──────────────────────────────────────────┤
│  用户请求                                 │
│     ↓                                    │
│  电信/联通 双线BGP                       │
│     ↓                                    │
│  负载均衡(硬件F5)                      │
│     ↓                                    │
│  Web服务器集群(10台)                   │
│     ↓                                    │
│  MySQL主从(2台)                        │
│     ↓                                    │
│  文件存储(NFS)                         │
└──────────────────────────────────────────┘

技术特点:

硬件配置详情: | 组件 | 规格 | 数量 | 用途 | |——|——|——|——| | Web服务器 | 双核Xeon, 8GB RAM | 10台 | PHP应用 | | 数据库服务器 | 四核Xeon, 16GB RAM | 2台 | MySQL主从 | | 存储服务器 | 四核Xeon, 8GB RAM | 1台 | NFS文件共享 | | 负载均衡 | F5 BIG-IP LTM 1600 | 1台 | 流量分发 | | 交换机 | Cisco 2960 | 2台 | 网络互联 |

运维实践:

主要挑战:

11.1.2 第二代:多机房部署(2013-2016)

┌────────────────────────────────────────────────┐
│               多机房架构图                      │
├────────────────────────────────────────────────┤
│                                                │
│    ┌──────────┐        ┌──────────┐          │
│    │ 北京机房  │        │ 上海机房  │          │
│    │ (主)     │        │ (主)     │          │
│    └─────┬────┘        └────┬─────┘          │
│          │                   │                 │
│          └──────┬────────────┘                 │
│                 │                              │
│          ┌──────┴──────┐                      │
│          │  GSLB调度    │                      │
│          └──────┬──────┘                      │
│                 │                              │
│    ┌────────────┼────────────┐                │
│    │            │            │                │
│ ┌──┴───┐   ┌───┴──┐   ┌────┴───┐            │
│ │广州   │   │成都   │   │ 杭州    │            │
│ │边缘   │   │边缘   │   │ 边缘    │            │
│ └──────┘   └──────┘   └────────┘            │
└────────────────────────────────────────────────┘

技术升级:

机房建设详情:

机房位置 建设时间 机柜数 带宽 主要功能
上海张江 2013.03 20个 5Gbps 核心业务
北京酒仙桥 2013.09 15个 3Gbps 北方接入
广州科学城 2014.06 5个 1Gbps 华南加速
成都高新区 2015.03 3个 500Mbps 西南覆盖
杭州滨江 2015.11 8个 2Gbps 阿里云混合

数据同步架构:

MySQL主从同步:
上海(Master) ──GTID──> 北京(Slave)
     │                      │
     └──────Canal──────────┘
           │
    Kafka消息队列
           │
    ┌──────┴──────┐
    │             │
Redis缓存  ElasticSearch

技术栈升级:

关键数据: | 指标 | 2013年 | 2014年 | 2015年 | 2016年 | |——|——–|——–|——–|——–| | 机房数量 | 2个 | 3个 | 4个 | 5个 | | 服务器规模 | 100台 | 300台 | 600台 | 1000台 | | 总带宽 | 1Gbps | 5Gbps | 12Gbps | 20Gbps | | 存储容量 | 50TB | 200TB | 500TB | 1PB | | 月度成本 | ¥50万 | ¥150万 | ¥300万 | ¥500万 | | 日均PV | 500万 | 2000万 | 5000万 | 1亿 |

重要事件:

11.1.3 第三代:自建IDC时代(2017-2020)

战略决策背景:

自建数据中心规格:

┌─────────────────────────────────────────────────┐
│            B站自建IDC架构                       │
├─────────────────────────────────────────────────┤
│                                                 │
│  核心数据中心(Tier3+)                         │
│  ├─ 上海青浦DC:5000机柜                       │
│  ├─ 北京亦庄DC:3000机柜                       │
│  └─ 深圳观澜DC:2000机柜                       │
│                                                 │
│  边缘数据中心                                   │
│  ├─ 覆盖城市:20+                              │
│  ├─ 节点数量:50+                              │
│  └─ 缓存容量:10PB+                            │
│                                                 │
│  技术特性                                       │
│  ├─ PUE值:< 1.3                               │
│  ├─ 供电:2N冗余                               │
│  ├─ 制冷:N+1冗余                              │
│  ├─ 网络:多运营商BGP                          │
│  └─ 安全:ISO27001认证                         │
└─────────────────────────────────────────────────┘

上海青浦数据中心详细规格:

建设参数:
├─ 占地面积:30000平方米
├─ 建筑面积:50000平方米
├─ 总投资:¥8亿
├─ 建设周期:18个月(2017.03-2018.09)
├─ 设计寿命:25年

电力系统:
├─ 市电接入:双路110kV
├─ 变压器:20台×2500kVA
├─ UPS配置:2N冗余,单机2000kVA
├─ 柴发配置:N+1,单机2000kW
├─ 电池后备:15分钟

制冷系统:
├─ 制冷方式:水冷+自然冷却
├─ 冷机配置:8台×1200RT离心机
├─ 末端形式:列间空调+冷通道封闭
├─ 全年PUE:1.25(利用自然冷却180天/年)

服务器采购策略:

年份 服务器型号 采购数量 单价 主要用途
2017 Dell R730 2000台 ¥3.5万 Web/API服务
2018 浪潮NF5280M5 3000台 ¥3万 视频转码
2019 华为2288H V5 5000台 ¥2.8万 通用计算
2020 自研白牌服务器 8000台 ¥2万 存储/缓存

网络架构设计:

┌─────────────────────────────────────────┐
│          数据中心网络拓扑                │
├─────────────────────────────────────────┤
│                                         │
│  互联网接入层                           │
│  ├─ 电信:100G×2                       │
│  ├─ 联通:100G×2                       │
│  ├─ 移动:50G×2                        │
│  └─ BGP:全网段宣告                    │
│                                         │
│  核心层(Spine)                        │
│  ├─ 设备:华为CE12800×4                │
│  ├─ 带宽:100G QSFP28                  │
│  └─ 协议:OSPF + BGP                   │
│                                         │
│  汇聚层(Leaf)                         │
│  ├─ 设备:华为CE6800×48                │
│  ├─ 上联:4×25G                        │
│  └─ 下联:48×10G                       │
│                                         │
│  接入层(TOR)                          │
│  ├─ 设备:华为CE5855×500               │
│  ├─ 端口:48×1G + 4×10G                │
│  └─ 堆叠:IRF2虚拟化                   │
└─────────────────────────────────────────┘

自建vs租用成本对比:

项目 自建IDC 租用IDC 节省比例
机柜成本 ¥3000/月 ¥8000/月 62.5%
带宽成本 ¥30/Mbps ¥80/Mbps 62.5%
电力成本 ¥0.6/度 ¥1.2/度 50%
运维人员 50人 10人 -400%
初期投资 ¥15亿 0 -
总体TCO(5年) ¥20亿 ¥32亿 37.5%

里程碑事件:

11.1.4 第四代:全球化部署(2021-至今)

┌──────────────────────────────────────────────────┐
│              全球基础设施布局                     │
├──────────────────────────────────────────────────┤
│                                                  │
│  亚太地区                                        │
│  ├─ 中国大陆:10个核心DC + 100+边缘节点          │
│  ├─ 香港:2个数据中心                           │
│  ├─ 新加坡:1个数据中心                         │
│  ├─ 日本东京:1个数据中心                       │
│  └─ 韩国首尔:边缘节点                          │
│                                                  │
│  北美地区                                        │
│  ├─ 美国西部(洛杉矶):1个数据中心             │
│  ├─ 美国东部(弗吉尼亚):1个数据中心           │
│  └─ 加拿大(多伦多):边缘节点                  │
│                                                  │
│  欧洲地区                                        │
│  ├─ 德国法兰克福:1个数据中心                   │
│  └─ 英国伦敦:边缘节点                          │
│                                                  │
│  技术指标                                        │
│  ├─ 全球带宽储备:100Tbps+                      │
│  ├─ 服务器数量:10万+                           │
│  ├─ 存储容量:100PB+                            │
│  └─ 月活跃用户覆盖:200+国家和地区              │
└──────────────────────────────────────────────────┘

11.2 容器化与Kubernetes

11.2.1 容器化历程

阶段一:Docker探索期(2015-2016)

传统部署 vs Docker部署对比
┌────────────────┬────────────────┐
│   传统部署      │   Docker部署    │
├────────────────┼────────────────┤
│ 部署时间:30分钟 │ 部署时间:3分钟  │
│ 资源利用率:30% │ 资源利用率:70% │
│ 环境一致性:低  │ 环境一致性:高  │
│ 回滚时间:1小时 │ 回滚时间:30秒  │
└────────────────┴────────────────┘

阶段二:Kubernetes落地(2017-2018)

# B站早期K8s集群配置示例
apiVersion: v1
kind: Cluster
metadata:
  name: bilibili-prod-cluster
spec:
  version: 1.10
  nodes:
    master: 3
    worker: 100
  network:
    plugin: flannel
    cidr: 10.244.0.0/16
  storage:
    class: ceph-rbd
  monitoring:
    prometheus: enabled
    grafana: enabled

阶段三:规模化应用(2019-2020)

指标 2019年 2020年
K8s集群数 5个 20个
Pod总数 1万+ 10万+
容器化比例 30% 70%
部署频率 100次/天 1000次/天
故障恢复时间 5分钟 30秒

11.2.2 K8s平台建设

B站Kubernetes平台架构:

┌──────────────────────────────────────────────┐
│          B站K8s平台架构(2024)              │
├──────────────────────────────────────────────┤
│                                              │
│  管控层                                      │
│  ├─ Kube-apiserver (多副本)                 │
│  ├─ Etcd集群 (7节点)                        │
│  └─ 调度器 (自研增强)                       │
│                                              │
│  计算层                                      │
│  ├─ 节点规模:5000+                         │
│  ├─ GPU节点:500+                           │
│  └─ 弹性节点:支持秒级扩缩容                │
│                                              │
│  网络层                                      │
│  ├─ CNI:Cilium (eBPF加速)                  │
│  ├─ Service Mesh:Istio                     │
│  └─ Ingress:自研BLB                        │
│                                              │
│  存储层                                      │
│  ├─ CSI:支持多种存储后端                   │
│  ├─ 本地存储:NVMe SSD                      │
│  └─ 分布式存储:Ceph/GlusterFS              │
│                                              │
│  可观测性                                    │
│  ├─ 日志:ELK Stack                         │
│  ├─ 监控:Prometheus + Thanos               │
│  ├─ 追踪:Jaeger                            │
│  └─ 告警:自研告警平台                      │
└──────────────────────────────────────────────┘

11.2.3 容器化最佳实践

1. 镜像优化策略:

# B站基础镜像优化示例
# 多阶段构建
FROM golang:1.20 AS builder
WORKDIR /app
COPY go.mod go.sum ./
RUN go mod download
COPY . .
RUN CGO_ENABLED=0 go build -o app

# 最小运行镜像
FROM alpine:3.18
RUN apk --no-cache add ca-certificates
COPY --from=builder /app/app /app
ENTRYPOINT ["/app"]

# 镜像大小对比
# 优化前:800MB
# 优化后:15MB

2. 资源管理策略:

应用类型 CPU Request CPU Limit Memory Request Memory Limit
Web服务 0.5 Core 2 Core 512Mi 2Gi
API服务 1 Core 4 Core 1Gi 4Gi
数据处理 2 Core 8 Core 4Gi 16Gi
AI推理 4 Core 16 Core 8Gi 32Gi

3. 发布策略:

┌─────────────────────────────────────┐
│       容器化发布流程                 │
├─────────────────────────────────────┤
│                                     │
│  1. 代码提交                        │
│      ↓                             │
│  2. CI构建镜像                      │
│      ↓                             │
│  3. 镜像安全扫描                    │
│      ↓                             │
│  4. 推送至镜像仓库                  │
│      ↓                             │
│  5. 灰度发布(1%→10%→50%→100%)    │
│      ↓                             │
│  6. 健康检查                        │
│      ↓                             │
│  7. 自动回滚(如有异常)            │
└─────────────────────────────────────┘

11.3 服务网格(Service Mesh)

11.3.1 Service Mesh演进路径

阶段一:传统服务治理(2016-2018)

应用层服务治理模式:
┌──────────────────────────┐
│       业务代码           │
│  ┌──────────────────┐   │
│  │   服务治理SDK    │   │
│  │  - 服务发现      │   │
│  │  - 负载均衡      │   │
│  │  - 熔断限流      │   │
│  └──────────────────┘   │
└──────────────────────────┘

问题:
- SDK升级困难
- 多语言支持成本高
- 业务侵入性强

阶段二:Sidecar模式探索(2019-2020)

Sidecar代理模式:
┌─────────────────────────────────┐
│         Pod                     │
│  ┌─────────┐    ┌─────────┐   │
│  │业务容器 │←→│ Envoy   │   │
│  └─────────┘    │ Sidecar │   │
│                 └─────────┘   │
└─────────────────────────────────┘
        ↑               ↑
        │               │
    业务流量      控制平面

阶段三:Istio全面应用(2021-至今)

┌──────────────────────────────────────────┐
│         B站Service Mesh架构              │
├──────────────────────────────────────────┤
│                                          │
│  控制平面(Istio)                       │
│  ├─ Pilot:服务发现与配置管理            │
│  ├─ Citadel:证书管理与安全              │
│  ├─ Galley:配置校验与分发               │
│  └─ 自研组件:多租户管理                 │
│                                          │
│  数据平面(Envoy)                       │
│  ├─ 代理数量:10000+                     │
│  ├─ RPS:1000万+                         │
│  ├─ P99延迟:< 1ms                       │
│  └─ 配置热更新:秒级                     │
│                                          │
│  流量管理能力                            │
│  ├─ 灰度发布                            │
│  ├─ A/B测试                             │
│  ├─ 故障注入                            │
│  ├─ 超时重试                            │
│  └─ 熔断限流                            │
└──────────────────────────────────────────┘

11.3.2 Service Mesh实践案例

案例一:视频推荐服务改造

改造前后对比: | 指标 | 改造前 | 改造后 | 提升 | |——|——–|——–|——| | 服务调用延迟 | 10ms | 5ms | 50% | | 故障恢复时间 | 5分钟 | 30秒 | 90% | | 发布时长 | 2小时 | 20分钟 | 83% | | 运维复杂度 | 高 | 低 | - |

案例二:多语言服务互通

服务互通矩阵:
         Go    Java   Python  Node.js
    ┌────┬────┬──────┬────────┬─────────┐
Go  │ ✓  │ ✓  │  ✓   │   ✓    │    ✓    │
    ├────┼────┼──────┼────────┼─────────┤
Java│ ✓  │ ✓  │  ✓   │   ✓    │    ✓    │
    ├────┼────┼──────┼────────┼─────────┤
Python│✓ │ ✓  │  ✓   │   ✓    │    ✓    │
    ├────┼────┼──────┼────────┼─────────┤
Node│ ✓  │ ✓  │  ✓   │   ✓    │    ✓    │
    └────┴────┴──────┴────────┴─────────┘

通过Service Mesh实现协议转换和服务治理统一

11.4 监控与可观测性

11.4.1 监控体系演进

第一代:基础监控(2009-2013)

┌─────────────────────────────────┐
│      基础监控架构               │
├─────────────────────────────────┤
│                                 │
│  监控工具                       │
│  ├─ Nagios:主机监控           │
│  ├─ Cacti:网络流量            │
│  ├─ Zabbix:应用监控           │
│  └─ 脚本:自定义监控           │
│                                 │
│  监控指标                       │
│  ├─ CPU/内存/磁盘              │
│  ├─ 网络流量                   │
│  └─ 进程状态                   │
│                                 │
│  告警方式                       │
│  ├─ 邮件                       │
│  └─ 短信(重要告警)           │
└─────────────────────────────────┘

第二代:分布式监控(2014-2017)

┌──────────────────────────────────────────┐
│         分布式监控体系                    │
├──────────────────────────────────────────┤
│                                          │
│  数据采集层                              │
│  ├─ StatsD:应用指标采集                 │
│  ├─ Collectd:系统指标采集               │
│  ├─ Filebeat:日志采集                   │
│  └─ Tcpdump:网络抓包                    │
│                                          │
│  存储层                                  │
│  ├─ Graphite:时序数据                   │
│  ├─ ElasticSearch:日志存储              │
│  └─ MySQL:元数据                        │
│                                          │
│  展示层                                  │
│  ├─ Grafana:指标可视化                  │
│  ├─ Kibana:日志分析                     │
│  └─ 自研:业务大盘                       │
└──────────────────────────────────────────┘

第三代:云原生可观测性平台(2018-至今)

┌───────────────────────────────────────────────┐
│       B站可观测性平台架构(2024)             │
├───────────────────────────────────────────────┤
│                                               │
│  三大支柱                                     │
│  ┌─────────┬──────────┬──────────┐          │
│  │ Metrics │   Logs   │  Traces  │          │
│  └────┬────┴────┬─────┴────┬─────┘          │
│       │         │          │                 │
│  采集层                                       │
│  ├─ Prometheus:指标采集                     │
│  ├─ Loki:日志采集                          │
│  ├─ Jaeger:链路追踪                        │
│  └─ eBPF:内核级观测                        │
│                                               │
│  存储层                                       │
│  ├─ VictoriaMetrics:长期指标存储           │
│  ├─ ClickHouse:日志分析                    │
│  ├─ Cassandra:Trace存储                    │
│  └─ 对象存储:冷数据归档                    │
│                                               │
│  分析层                                       │
│  ├─ 异常检测:基于ML的智能告警              │
│  ├─ 根因分析:故障定位                      │
│  ├─ 容量预测:资源规划                      │
│  └─ 成本分析:优化建议                      │
│                                               │
│  可视化层                                     │
│  ├─ Grafana:统一展示                       │
│  ├─ 自研APM:应用性能管理                   │
│  └─ 移动端APP:随时监控                     │
└───────────────────────────────────────────────┘

11.4.2 关键监控指标体系

黄金指标(Golden Signals):

指标类型 具体指标 阈值设定 告警级别
延迟(Latency) P50 < 100ms P99 < 1s Warning: P99 > 500ms
流量(Traffic) QPS 基线±30% Critical: 基线±50%
错误(Errors) 错误率 < 0.1% Critical: > 1%
饱和度(Saturation) CPU/内存 < 80% Critical: > 90%

业务指标监控:

┌──────────────────────────────────────┐
│        业务指标实时大盘               │
├──────────────────────────────────────┤
│                                      │
│  核心业务指标                        │
│  ├─ DAU:1.05亿(↑5%)              │
│  ├─ 视频播放量:32.5亿(↑8%)       │
│  ├─ 弹幕发送量:1.2亿(↑10%)       │
│  ├─ 直播在线:520万(↑3%)          │
│  └─ 支付成功率:99.95%              │
│                                      │
│  技术指标                            │
│  ├─ API成功率:99.99%               │
│  ├─ CDN命中率:95.5%                │
│  ├─ 数据库QPS:500万                │
│  ├─ 缓存命中率:98%                 │
│  └─ 服务可用性:99.995%             │
│                                      │
│  告警统计(最近24小时)              │
│  ├─ P0告警:0个                     │
│  ├─ P1告警:3个                     │
│  ├─ P2告警:15个                    │
│  └─ P3告警:48个                    │
└──────────────────────────────────────┘

11.4.3 智能化运维实践

AIOps平台架构:

┌─────────────────────────────────────────┐
│          B站AIOps平台                   │
├─────────────────────────────────────────┤
│                                         │
│  数据接入                               │
│  ├─ 监控数据:100TB/天                 │
│  ├─ 日志数据:1PB/天                   │
│  ├─ 事件数据:1000万/天                │
│  └─ 配置数据:CMDB                     │
│                                         │
│  智能分析引擎                           │
│  ├─ 异常检测                           │
│  │  ├─ 基于LSTM的时序异常              │
│  │  ├─ 基于孤立森林的离群点检测        │
│  │  └─ 基于规则的阈值检测              │
│  │                                      │
│  ├─ 根因定位                           │
│  │  ├─ 调用链分析                      │
│  │  ├─ 日志聚类                        │
│  │  └─ 变更关联                        │
│  │                                      │
│  └─ 故障预测                           │
│      ├─ 容量预测                        │
│      ├─ 故障概率评估                    │
│      └─ 性能趋势分析                    │
│                                         │
│  自动化响应                             │
│  ├─ 自动扩缩容                         │
│  ├─ 故障自愈                           │
│  ├─ 智能限流                           │
│  └─ 自动回滚                           │
└─────────────────────────────────────────┘

智能告警降噪效果:

时期 日均告警数 有效告警 噪音比例 MTTD MTTR
2019年 10000+ 500 95% 10分钟 30分钟
2020年 8000+ 600 92.5% 5分钟 20分钟
2021年 5000+ 700 86% 3分钟 15分钟
2022年 3000+ 800 73% 2分钟 10分钟
2023年 1500+ 900 40% 1分钟 5分钟
2024年 1000+ 950 5% 30秒 3分钟

11.5 混合云架构

11.5.1 混合云战略

多云架构设计:

┌──────────────────────────────────────────────┐
│            B站混合云架构                     │
├──────────────────────────────────────────────┤
│                                              │
│  私有云(70%)                               │
│  ├─ 核心业务:视频、直播、社区               │
│  ├─ 数据存储:用户数据、内容数据             │
│  ├─ 优势:成本可控、数据安全                 │
│  └─ 规模:7万+服务器                         │
│                                              │
│  公有云(30%)                               │
│  ├─ 阿里云                                   │
│  │  ├─ 弹性计算:活动峰值                   │
│  │  ├─ CDN加速:内容分发                    │
│  │  └─ 大数据服务:EMR集群                  │
│  │                                           │
│  ├─ 腾讯云                                   │
│  │  ├─ 游戏服务:云游戏                     │
│  │  ├─ AI服务:语音识别                     │
│  │  └─ 存储服务:COS对象存储                │
│  │                                           │
│  ├─ AWS(海外)                              │
│  │  ├─ 全球加速:CloudFront                 │
│  │  ├─ 计算服务:EC2                        │
│  │  └─ 数据分析:Redshift                   │
│  │                                           │
│  └─ 华为云                                   │
│      ├─ 鲲鹏算力:ARM服务器                  │
│      └─ 5G边缘:MEC节点                      │
└──────────────────────────────────────────────┘

11.5.2 云管平台建设

统一云管平台功能:

┌─────────────────────────────────────────────┐
│          B站云管平台(BCloud)              │
├─────────────────────────────────────────────┤
│                                             │
│  资源管理                                   │
│  ├─ 多云资源统一纳管                       │
│  ├─ 资源池化管理                           │
│  ├─ 配额管理                               │
│  └─ 成本分析                               │
│                                             │
│  服务编排                                   │
│  ├─ IaC(基础设施即代码)                  │
│  ├─ 应用编排                               │
│  ├─ 工作流引擎                             │
│  └─ 蓝图管理                               │
│                                             │
│  运维管理                                   │
│  ├─ 统一监控                               │
│  ├─ 日志管理                               │
│  ├─ 告警管理                               │
│  └─ 自动化运维                             │
│                                             │
│  安全合规                                   │
│  ├─ 身份认证                               │
│  ├─ 权限管理                               │
│  ├─ 审计日志                               │
│  └─ 合规检查                               │
└─────────────────────────────────────────────┘

11.5.3 跨云容灾方案

两地三中心架构:

┌───────────────────────────────────────────────┐
│           两地三中心容灾架构                   │
├───────────────────────────────────────────────┤
│                                               │
│  上海(生产中心)                             │
│  ├─ 承载流量:60%                            │
│  ├─ 数据状态:主库                           │
│  └─ RPO:0                                   │
│                                               │
│  北京(同城灾备)                             │
│  ├─ 承载流量:40%                            │
│  ├─ 数据状态:实时同步                       │
│  └─ RTO:< 1分钟                             │
│                                               │
│  深圳(异地灾备)                             │
│  ├─ 承载流量:冷备                           │
│  ├─ 数据状态:准实时同步                     │
│  └─ RTO:< 30分钟                            │
│                                               │
│  容灾演练                                     │
│  ├─ 演练频率:季度                           │
│  ├─ 切换时间:< 5分钟                        │
│  └─ 数据验证:自动化                         │
└───────────────────────────────────────────────┘

容灾切换流程:

步骤 操作内容 预计耗时 责任人
1 故障确认 1分钟 NOC
2 启动应急预案 30秒 值班经理
3 流量切换 2分钟 网络工程师
4 数据库切换 3分钟 DBA
5 应用切换 2分钟 SRE
6 验证检查 2分钟 QA
7 对外通告 30秒 PR

11.5.4 成本优化实践

云资源成本优化策略:

┌──────────────────────────────────────────┐
│         成本优化措施及效果               │
├──────────────────────────────────────────┤
│                                          │
│  优化措施                                │
│  1. 预留实例购买                         │
│     节省:35%                            │
│                                          │
│  2. 竞价实例使用                         │
│     节省:70%(非核心业务)              │
│                                          │
│  3. 闲时资源调度                         │
│     节省:25%                            │
│                                          │
│  4. 冷数据归档                           │
│     节省:80%(存储成本)                │
│                                          │
│  5. 自动扩缩容                           │
│     节省:30%                            │
│                                          │
│  总体效果                                │
│  ├─ 2023年云成本:¥3.5亿                │
│  ├─ 优化后成本:¥2.1亿                  │
│  └─ 节省比例:40%                        │
└──────────────────────────────────────────┘

小结

B站的基础设施建设经历了从单机房到全球分布、从物理机到云原生、从被动监控到智能运维的完整演进过程。通过持续的技术投入和创新,B站构建了一套高可用、高性能、高弹性的基础设施体系,为业务的快速发展提供了坚实的技术支撑。

关键成就:

未来,B站将继续深化云原生转型,探索边缘计算、Serverless等新技术,构建更加智能、高效的基础设施平台。