baidu_history

第三章:平台化转型(2011-2015)

从搜索引擎公司向技术平台公司的战略转型,奠定AI时代基础

    2011 ────────────────────────────────────────────────── 2015
      │           │              │             │              │
   云计算平台    深度学习研究院   百度大脑1.0    O2O布局      移动转型
   基础设施      IDL成立         AI积累        连接服务      生态构建

引言

2011年至2015年,是百度从单一搜索引擎公司向综合技术平台转型的关键时期。在移动互联网浪潮的冲击下,李彦宏带领百度进行了一系列重大战略布局:建立云计算基础设施、成立深度学习研究院、推出百度大脑1.0、大举进军O2O领域。这些看似分散的举措,实际上都指向同一个目标——构建面向未来的技术平台能力。

这一时期,百度在技术投入上不遗余力。从邀请余凯创建深度学习研究院(IDL),到吴恩达、张潼等国际顶尖AI专家的加盟,再到王海峰主导的自然语言处理技术突破,百度逐步建立起中国最强大的AI研发体系。虽然O2O战略最终未能成功,但这一时期积累的技术能力和人才储备,为后续的”AI First”战略转型奠定了坚实基础。

3.1 百度云计算平台的建立

3.1.1 分布式存储系统

2011年,百度面临着数据爆炸性增长的挑战。每天数十亿的搜索请求、网页索引、用户行为数据,传统的存储架构已经无法满足需求。在此背景下,百度开始构建自主研发的分布式存储系统。

百度文件系统(BFS)架构

┌─────────────────────────────────────────────────────────┐
│                     BFS架构图                            │
├─────────────────────────────────────────────────────────┤
│                                                         │
│    客户端API层                                           │
│    ┌─────────┐  ┌─────────┐  ┌─────────┐             │
│    │ C++ SDK │  │Java SDK │  │ Python  │             │
│    └────┬────┘  └────┬────┘  └────┬────┘             │
│         │            │             │                    │
│    ┌────▼────────────▼─────────────▼────┐             │
│    │          元数据服务器集群             │             │
│    │    (NameNode Cluster - 3副本)       │             │
│    └────────────────┬────────────────────┘             │
│                     │                                   │
│    ┌────────────────▼────────────────────┐             │
│    │          数据存储节点集群             │             │
│    │     (DataNode Cluster - 10000+)     │             │
│    │  ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐           │
│    │  │Node1 │ │Node2 │ │Node3 │ │Node4 │ ...        │
│    │  │64TB  │ │64TB  │ │64TB  │ │64TB  │           │
│    │  └──────┘ └──────┘ └──────┘ └──────┘           │
│    └─────────────────────────────────────┘             │
│                                                         │
│    存储特性:                                            │
│    • 3副本冗余策略                                       │
│    • 纠删码支持(RS编码)                                │
│    • 自动故障检测与恢复                                  │
│    • 支持PB级数据存储                                    │
└─────────────────────────────────────────────────────────┘

技术团队在林仕鼎的带领下,借鉴了Google GFS的设计理念,但针对百度的业务特点进行了大量优化:

到2013年底,BFS系统已经管理超过100PB的数据,支撑着百度全线产品的存储需求。

3.1.2 计算资源调度

随着存储问题的解决,如何高效调度和管理计算资源成为下一个挑战。2012年,百度推出了Matrix资源调度系统,这是国内最早的大规模容器化调度平台之一。

Matrix调度系统架构

资源调度架构:
┌────────────────────────────────────────────────────┐
│                  用户任务提交                        │
│    MapReduce    Spark    Storm    自定义任务        │
└──────────┬─────────────────────────────────────────┘
           │
    ┌──────▼──────────────────────────────┐
    │         Matrix Master               │
    │  ┌─────────────┬──────────────┐     │
    │  │  调度器     │   资源管理器   │     │
    │  │ (Scheduler) │ (ResourceMgr) │     │
    │  └─────────────┴──────────────┘     │
    └──────────────┬───────────────────────┘
                   │
    ┌──────────────▼───────────────────────┐
    │          Agent集群                    │
    │   ┌──────┐ ┌──────┐ ┌──────┐       │
    │   │Agent1│ │Agent2│ │Agent3│  ...  │
    │   │32核  │ │32核  │ │32核  │       │
    │   │128GB │ │128GB │ │128GB │       │
    │   └──────┘ └──────┘ └──────┘       │
    └──────────────────────────────────────┘

Matrix系统的核心创新点:

资源利用率对比

指标 传统部署 Matrix平台 提升幅度
CPU利用率 15-20% 60-70% 3倍+
内存利用率 30% 65% 2倍+
任务部署时间 小时级 秒级 100倍+
资源弹性 手动 自动 -

3.1.3 PaaS服务设计

2013年,百度正式推出百度应用引擎(BAE),这是国内最早的PaaS平台之一。BAE的设计理念是”让开发者专注于业务逻辑,而不是基础设施”。

BAE平台能力矩阵

┌─────────────────────────────────────────────────────────┐
│                    BAE PaaS平台架构                       │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  应用层                                                  │
│  ┌──────────┬──────────┬──────────┬──────────┐        │
│  │  PHP     │  Java    │  Python  │  Node.js │        │
│  │  应用    │  应用    │  应用    │   应用    │        │
│  └────┬─────┴────┬─────┴────┬─────┴────┬─────┘        │
│       │          │          │          │               │
│  ┌────▼──────────▼──────────▼──────────▼─────┐        │
│  │              运行时环境层                    │        │
│  │   语言运行时 + 框架支持 + 依赖管理           │        │
│  └────────────────┬───────────────────────────┘        │
│                   │                                     │
│  ┌────────────────▼───────────────────────────┐        │
│  │              中间件服务层                    │        │
│  │  ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ │        │
│  │  │MySQL│ │Redis│ │MQ   │ │Cache│ │CDN  │ │        │
│  │  └─────┘ └─────┘ └─────┘ └─────┘ └─────┘ │        │
│  └────────────────┬───────────────────────────┘        │
│                   │                                     │
│  ┌────────────────▼───────────────────────────┐        │
│  │            基础设施层                        │        │
│  │     计算资源 + 存储资源 + 网络资源           │        │
│  └─────────────────────────────────────────────┘        │
└─────────────────────────────────────────────────────────┘

BAE的技术特色:

开发者生态数据(2015年)

3.1.4 开发者生态建设

百度云平台的成功不仅在于技术,更在于构建了完整的开发者生态系统。2014年,百度启动”云加速计划”,为创业公司提供免费云资源支持。

开发者支持体系

开发者生态金字塔:
                ╱╲
               ╱  ╲
              ╱核心╲
             ╱ 合作 ╲
            ╱ 伙伴  ╲  ← 技术共建、深度定制
           ╱─────────╲
          ╱  活跃开发者 ╲  ← 技术支持、资源倾斜
         ╱───────────────╲
        ╱   普通开发者     ╲  ← 标准服务、文档支持
       ╱─────────────────────╲
      ╱    潜在开发者         ╲  ← 培训教育、社区活动
     ╱───────────────────────────╲

开发者服务矩阵

服务类型 具体内容 受益开发者
技术文档 API文档、最佳实践、示例代码 100万+
开发工具 SDK、CLI工具、IDE插件 50万+
技术培训 线上课程、线下workshop 10万+
资源扶持 免费额度、创业扶持计划 5万+
技术支持 7×24小时工单、专属技术支持 1万+

百度开发者大会

从2011年开始,百度每年举办开发者大会,这成为中国互联网技术界的重要盛会:

这些举措极大地推动了百度云平台的普及,也为后续的AI生态建设奠定了基础。

3.2 深度学习研究院成立

3.2.1 余凯创建IDL研究院

2013年1月,百度深度学习研究院(Institute of Deep Learning,IDL)正式成立,这标志着百度在人工智能领域的战略布局正式开始。李彦宏亲自邀请余凯担任首任院长。

IDL成立背景

2012年,深度学习在ImageNet竞赛中取得突破性进展,李彦宏敏锐地意识到这将是未来技术发展的关键方向。他在内部邮件中写道:”深度学习将改变互联网的一切,百度必须在这个领域占据制高点。”

余凯的技术愿景

余凯(前NEC美国研究院研究员)提出了”百度大脑”的概念:

百度大脑概念架构(2013年):
┌─────────────────────────────────────────────┐
│              应用层                          │
│   语音识别  图像识别  自然语言理解  推荐系统    │
└─────────────┬───────────────────────────────┘
              │
┌─────────────▼───────────────────────────────┐
│           深度学习平台                        │
│   ┌──────────┬──────────┬──────────┐       │
│   │   DNN    │   CNN    │   RNN    │       │
│   │ 深度神经  │ 卷积神经  │ 循环神经  │       │
│   │   网络   │   网络    │   网络    │       │
│   └──────────┴──────────┴──────────┘       │
└─────────────┬───────────────────────────────┘
              │
┌─────────────▼───────────────────────────────┐
│          计算基础设施                         │
│     GPU集群 + FPGA加速 + 分布式训练           │
└─────────────────────────────────────────────┘

初期团队组建

3.2.2 早期研究方向与团队组建

IDL成立初期,确定了四大研究方向,每个方向都配备了专门的研究团队。

四大研究方向

IDL研究布局:
┌────────────────────────────────────────────────┐
│                 语音技术组                      │
│  负责人:贾磊                                   │
│  • 语音识别:DNN-HMM模型                        │
│  • 语音合成:参数化TTS                          │
│  • 声纹识别:说话人验证                         │
├────────────────────────────────────────────────┤
│                 视觉技术组                      │
│  负责人:倪凯                                   │
│  • 图像分类:深度CNN                           │
│  • 人脸识别:DeepFace项目                      │
│  • OCR识别:文字检测与识别                      │
├────────────────────────────────────────────────┤
│                 NLP技术组                       │
│  负责人:王海峰                                 │
│  • 机器翻译:神经网络翻译                       │
│  • 情感分析:深度文本理解                      │
│  • 知识图谱:实体关系抽取                      │
├────────────────────────────────────────────────┤
│              机器学习平台组                     │
│  负责人:徐伟                                   │
│  • 分布式训练:参数服务器                       │
│  • 模型压缩:知识蒸馏                          │
│  • AutoML:神经架构搜索                        │
└────────────────────────────────────────────────┘

人才引进策略

时期 引进人才 背景 负责领域
2013Q1 戴文渊 Yahoo研究院 大规模机器学习
2013Q2 李平 MIT博士 语音识别
2013Q3 黄畅 CMU博士 计算机视觉
2013Q4 林元庆 NEC美国实验室 深度学习
2014Q1 张潼 Rutgers教授 机器学习理论

早期成果展示

3.2.3 吴恩达加盟与全球化战略

2014年5月,李彦宏成功邀请到斯坦福大学教授、Google Brain创始人之一吴恩达(Andrew Ng)加盟百度,担任首席科学家,这是百度AI战略的里程碑事件。

吴恩达的加盟影响

吴恩达负责架构:
                    李彦宏
                      │
                   吴恩达
              (首席科学家)
                      │
        ┌─────────────┼─────────────┐
        │             │             │
    IDL研究院    硅谷AI实验室   北京深度学习实验室
     (余凯)       (Adam Coates)    (林元庆)

硅谷AI实验室(SVAIL)成立

2014年,百度在硅谷Sunnyvale设立AI实验室,这是中国科技公司在美国设立的第一个人工智能研究机构。

全球人才招募计划

研究中心 地点 重点方向 人员规模
IDL北京 北京 深度学习基础研究 200+
SVAIL 硅谷 语音识别、自动驾驶 100+
BDL 北京 大数据实验室 150+
AR Lab 北京 增强现实 50+

Deep Speech项目突破

在吴恩达的领导下,百度推出了Deep Speech语音识别系统:

3.2.4 学术合作网络与人才培养

百度深度学习研究院不仅注重技术研发,还建立了完整的学术合作网络和人才培养体系。

高校合作计划

百度-高校AI合作网络:
          ┌──────────────┐
          │   百度IDL     │
          └───────┬───────┘
                  │
    ┌─────────────┼─────────────┐
    │             │             │
┌───▼────┐  ┌────▼────┐  ┌────▼────┐
│清华大学  │  │北京大学  │  │中科院   │
│AI研究院  │  │信科学院  │  │计算所   │
└─────────┘  └─────────┘  └─────────┘
    │             │             │
┌───▼────┐  ┌────▼────┐  ┌────▼────┐
│Stanford │  │  MIT    │  │CMU      │
│  AI Lab │  │  CSAIL  │  │   ML    │
└─────────┘  └─────────┘  └─────────┘

百度奖学金计划

2013年启动,每年选拔8-10名全球顶尖的中国籍博士生:

论文发表成果(2013-2015)

会议/期刊 2013 2014 2015 累计
NIPS 3 7 12 22
ICML 2 5 9 16
CVPR 4 8 15 27
ACL 3 6 10 19
总计 12 26 46 84

内部人才培养机制

这些举措为百度储备了大量AI人才,为后续的技术突破奠定了人才基础。

3.3 百度大脑1.0:AI技术积累

3.3.1 吴恩达主导的语音识别技术

2014年,在吴恩达的领导下,百度在语音识别技术上取得了重大突破,推出了Deep Speech系统,这成为百度大脑的第一个杀手级应用。

Deep Speech技术架构

Deep Speech系统架构:
┌─────────────────────────────────────────────────┐
│                  输入音频                        │
│                 (Raw Audio)                     │
└────────────────────┬────────────────────────────┘
                     │
┌────────────────────▼────────────────────────────┐
│              特征提取层                          │
│         (Spectrogram Features)                  │
└────────────────────┬────────────────────────────┘
                     │
┌────────────────────▼────────────────────────────┐
│            深度神经网络                          │
│   ┌─────────────────────────────────┐          │
│   │   5层 Bidirectional RNN         │          │
│   │   + 2层 全连接层                 │          │
│   │   参数量:1亿+                   │          │
│   └─────────────────────────────────┘          │
└────────────────────┬────────────────────────────┘
                     │
┌────────────────────▼────────────────────────────┐
│              CTC解码器                           │
│    (Connectionist Temporal Classification)      │
└────────────────────┬────────────────────────────┘
                     │
┌────────────────────▼────────────────────────────┐
│              语言模型                            │
│         (N-gram Language Model)                 │
└────────────────────┬────────────────────────────┘
                     │
                输出文本

技术创新点

性能指标对比

测试集 传统方法 Deep Speech Google 提升幅度
安静环境 8.5% 5.1% 5.5% 40%
噪声环境 25.3% 12.6% 15.2% 50%
口音识别 18.7% 9.8% 11.3% 48%
实时因子 0.8 0.3 0.4 62%

3.3.2 张潼领导的图像识别突破

2014年初,张潼从美国Rutgers大学加入百度,担任大数据实验室(BDL)负责人,同时领导百度在计算机视觉领域的研究。在他的带领下,百度的图像识别技术在短时间内达到世界领先水平。

张潼的技术背景与加盟

张潼是机器学习领域的国际知名专家,在统计机器学习和大规模优化算法方面有深厚造诣。他的加入为百度带来了理论与实践结合的新思路。李彦宏在欢迎仪式上说:”张潼的加入将帮助百度在大数据和深度学习的结合上走得更远。”

百度图像识别技术架构

图像识别系统架构(2014-2015):
┌────────────────────────────────────────────────────────┐
│                    输入图像                              │
│                 (224×224 RGB)                          │
└──────────────────────┬─────────────────────────────────┘
                       │
┌──────────────────────▼─────────────────────────────────┐
│                 数据预处理                               │
│    • 数据增强:随机裁剪、翻转、颜色抖动                    │
│    • 归一化:均值减法、标准化                            │
└──────────────────────┬─────────────────────────────────┘
                       │
┌──────────────────────▼─────────────────────────────────┐
│              深度卷积神经网络                             │
│  ┌───────────────────────────────────────────────┐     │
│  │   BDNet架构(百度自研)                         │     │
│  │   • 22层深度网络                               │     │
│  │   • 1.5亿参数                                 │     │
│  │   • Inception模块 + ResNet连接                 │     │
│  │   • 多尺度特征融合                             │     │
│  └───────────────────────────────────────────────┘     │
└──────────────────────┬─────────────────────────────────┘
                       │
┌──────────────────────▼─────────────────────────────────┐
│                 任务特定层                               │
│   ┌──────────┬──────────┬──────────┬──────────┐      │
│   │ 分类     │ 检测     │ 分割     │ 识别     │      │
│   │ Softmax  │ R-CNN    │ FCN      │ OCR      │      │
│   └──────────┴──────────┴──────────┴──────────┘      │
└────────────────────────────────────────────────────────┘

核心技术突破

  1. 超深网络训练技术
    • 批归一化(Batch Normalization)的改进实现
    • 残差连接的早期探索(早于ResNet发表)
    • 自适应学习率调度算法
  2. 大规模分布式训练
    • 参数服务器架构,支持1000+ GPU并行训练
    • 异步SGD优化,训练速度提升10倍
    • 模型并行与数据并行的混合策略
  3. 多任务学习框架
    • 统一模型同时处理分类、检测、分割任务
    • 特征共享机制,减少50%计算量
    • 动态任务权重调整

ImageNet竞赛成绩

年份 任务 百度成绩 世界第一 排名
2014 分类 5.98% 6.66% (Google) 第2
2015 检测 8.5% 8.5% (百度) 第1
2015 定位 9.0% 9.0% (百度) 第1

实际应用案例

  1. 百度识图
    • 日均处理图片:5亿+
    • 识别准确率:95%+
    • 支持类别:10万+
    • 响应时间:<100ms
  2. 人脸识别系统
    • LFW测试集准确率:99.77%(2015年世界第一)
    • 百度员工门禁系统:3万人规模应用
    • 误识率:<0.001%
    • 识别速度:200ms/人脸
  3. 图片搜索优化
    • 相似图片检索:准确率提升60%
    • 以图搜图:支持10亿级图片库
    • 商品识别:覆盖1000万SKU

技术团队建设

张潼组建的计算机视觉团队规模和成果:

开源贡献

2015年,在张潼的推动下,百度开源了部分图像识别技术:

3.3.3 王海峰的自然语言处理

王海峰于2010年加入百度,担任自然语言处理部负责人,后升任副总裁。作为NLP领域的权威专家,他主导了百度在自然语言理解、机器翻译、知识图谱等方向的技术突破,奠定了百度在中文NLP领域的领先地位。

王海峰的技术理念

王海峰提出了”语言与知识”的技术理念,强调将深度学习与知识工程相结合。他认为:”单纯的统计学习无法解决语言理解的本质问题,必须融入人类的知识和推理能力。”这一理念贯穿了百度NLP技术发展的始终。

百度NLP技术体系架构

百度NLP技术栈(2013-2015):
┌─────────────────────────────────────────────────────────┐
│                      应用层                              │
│  搜索理解 | 智能问答 | 机器翻译 | 对话系统 | 文本生成      │
└──────────────────────┬──────────────────────────────────┘
                       │
┌──────────────────────▼──────────────────────────────────┐
│                   语义理解层                              │
│  ┌─────────────────────────────────────────────────┐    │
│  │  • 意图识别:基于深度学习的用户意图理解            │    │
│  │  • 情感分析:细粒度情感倾向判断                   │    │
│  │  • 语义匹配:深度语义相似度计算                   │    │
│  │  • 阅读理解:机器阅读理解技术                     │    │
│  └─────────────────────────────────────────────────┘    │
└──────────────────────┬──────────────────────────────────┘
                       │
┌──────────────────────▼──────────────────────────────────┐
│                   基础技术层                              │
│  ┌──────────┬──────────┬──────────┬──────────┐        │
│  │ 分词     │ 词性标注  │ 命名实体  │ 句法分析 │        │
│  │ CRF+DNN  │ BiLSTM   │ BiLSTM-CRF│ Graph   │        │
│  └──────────┴──────────┴──────────┴──────────┘        │
└──────────────────────┬──────────────────────────────────┘
                       │
┌──────────────────────▼──────────────────────────────────┐
│                   知识资源层                              │
│     知识图谱 | 语料库 | 词典 | 规则库 | 常识库            │
└─────────────────────────────────────────────────────────┘

核心技术突破

  1. 中文分词技术革新
    • 基于字符的序列标注方法,准确率达到97.5%
    • 新词发现算法,每天发现10万+新词
    • 领域自适应分词,支持20+垂直领域
    • 处理速度:100万字/秒
  2. 神经机器翻译系统

    百度是国内最早研发神经机器翻译的公司之一:

    机器翻译架构演进:
    2013年:统计机器翻译(SMT)
           ↓
    2014年:混合翻译系统(SMT + NN)
           ↓
    2015年:端到端神经机器翻译(NMT)
       
    NMT模型架构:
    编码器 → 注意力机制 → 解码器
    (BiLSTM)  (Attention)  (LSTM)
    

    翻译质量提升

    语言对 BLEU分数(2013) BLEU分数(2015) 提升幅度
    中→英 28.3 38.7 36.7%
    英→中 31.2 42.5 36.2%
    中→日 25.6 35.8 39.8%
    中→韩 24.1 34.3 42.3%
  3. 语义理解技术

    查询理解系统

    • 每天处理60亿+搜索查询
    • 意图识别准确率:92%
    • 查询改写覆盖率:30%
    • 性能:<10ms延迟

    对话理解框架

    多轮对话理解:
    用户输入 → 上下文编码 → 意图识别 → 槽位填充 → 对话管理
       ↓           ↓           ↓          ↓          ↓
    ASR输出   历史对话    95类意图   200+槽位   状态追踪
    
  4. 知识增强的语言模型

    王海峰团队在2015年提出了知识增强的语言模型,这是ERNIE的前身:

    • 知识融入:将实体、关系等知识融入预训练
    • 多粒度建模:字、词、实体三个粒度
    • 任务适配:在12个NLP任务上超越基线10%+

实际应用成果

  1. 百度翻译
    • 支持语言:28种
    • 日均翻译量:100亿字符
    • 活跃用户:5000万
    • API调用:日均1亿次
  2. 搜索查询理解
    • 查询纠错:覆盖15%的查询
    • 同义词扩展:1000万+同义词对
    • 需求识别:200+类需求场景
    • 实体链接:5000万+实体
  3. 智能客服系统
    • 自动应答率:70%
    • 用户满意度:85%
    • 节省人力:60%
    • 应用企业:1000+

团队建设与人才培养

王海峰建立的NLP团队成为百度AI的核心力量:

学术影响力

王海峰在学术界的贡献:

3.3.4 知识图谱构建与应用

2013年,百度启动了知识图谱项目,这是继Google Knowledge Graph之后,中国互联网公司在知识工程领域的重要布局。在王海峰的主导下,百度构建了当时全球最大的中文知识图谱。

知识图谱的战略意义

李彦宏在内部会议上强调:”从信息检索到知识服务,是搜索引擎发展的必然趋势。知识图谱将让百度真正理解用户的需求,而不仅仅是匹配关键词。”

百度知识图谱架构

知识图谱技术架构(2013-2015):
┌──────────────────────────────────────────────────────────┐
│                     应用服务层                             │
│   知识问答 | 实体推荐 | 关系挖掘 | 知识推理 | 智能摘要      │
└───────────────────────┬──────────────────────────────────┘
                        │
┌───────────────────────▼──────────────────────────────────┐
│                   知识计算层                               │
│  ┌────────────────────────────────────────────────┐      │
│  │  • 实体链接:将文本中的实体链接到知识库            │      │
│  │  • 关系推理:基于已有关系推断新关系               │      │
│  │  • 属性预测:预测实体的缺失属性                  │      │
│  │  • 知识补全:自动补全知识图谱                    │      │
│  └────────────────────────────────────────────────┘      │
└───────────────────────┬──────────────────────────────────┘
                        │
┌───────────────────────▼──────────────────────────────────┐
│                   知识存储层                               │
│         ┌──────────────┬──────────────┐                  │
│         │   图数据库    │   向量索引    │                  │
│         │  (Neo4j-like) │  (Embedding)  │                  │
│         └──────────────┴──────────────┘                  │
└───────────────────────┬──────────────────────────────────┘
                        │
┌───────────────────────▼──────────────────────────────────┐
│                   知识获取层                               │
│  ┌──────────┬──────────┬──────────┬──────────┐         │
│  │结构化数据 │半结构化   │非结构化   │众包标注  │         │
│  │(数据库)  │(百科/表格)│(网页/文本)│(人工)   │         │
│  └──────────┴──────────┴──────────┴──────────┘         │
└──────────────────────────────────────────────────────────┘

知识获取技术

  1. 多源数据融合

    百度知识图谱的数据来源:

    数据源 规模 更新频率 质量控制
    百度百科 1500万词条 实时 编辑审核
    结构化网页 10亿+ 每天 自动校验
    查询日志 60亿/天 实时 统计过滤
    合作数据 100+ 源 定期 协议保证
  2. 实体识别与抽取

    实体识别流程:
    原始文本 → 分词/词性标注 → 命名实体识别 → 实体消歧 → 实体链接
                 ↓                ↓              ↓           ↓
             CRF+规则      BiLSTM-CRF      图模型      知识库匹配
    

    性能指标

    • 实体识别F1值:92.3%
    • 关系抽取准确率:85.7%
    • 属性抽取准确率:88.2%
    • 处理速度:100万文档/小时
  3. 关系抽取技术

    • 模式匹配:基于依存句法的模式
    • 远程监督:利用已有知识库自动标注
    • 深度学习:CNN/RNN联合模型
    • 联合抽取:实体和关系的联合建模

知识图谱规模与质量

百度知识图谱规模增长(2013-2015):

        2013年      2014年       2015年
实体数:  1000万  →  5000万  →   1.5亿
关系数:  2亿    →   20亿   →    50亿
属性数:  5亿    →   30亿   →   100亿
三元组:  8亿    →   55亿   →   165亿

知识推理与计算

  1. 基于图的推理
    • 路径推理:通过关系路径发现新关系
    • 规则学习:自动学习推理规则
    • 图神经网络:GCN/GAT用于知识推理
  2. 知识表示学习

    百度提出的知识表示模型:

    TransE改进版:
    头实体 + 关系 ≈ 尾实体
       
    优化目标:
    min ∑ [γ + d(h+r, t) - d(h'+r, t')]₊
       
    其中:d为距离函数,γ为边界值
    

实际应用案例

  1. 知识卡片(Knowledge Card)

    搜索”李白”时展示的知识卡片:

    ┌─────────────────────────────┐
    │ 李白                         │
    │ 唐代诗人                     │
    ├─────────────────────────────┤
    │ 别名:青莲居士、谪仙人         │
    │ 生卒:701年-762年            │
    │ 代表作:《将进酒》《蜀道难》    │
    │ 称号:诗仙                   │
    └─────────────────────────────┘
    相关人物:杜甫、王维、孟浩然
    
    • 覆盖查询:30%的实体查询
    • 点击率提升:45%
    • 用户满意度:88%
  2. 智能问答系统

    基于知识图谱的问答:

    • 支持问题类型:50+种
    • 答案准确率:83%
    • 覆盖领域:20+个
    • 日均问答量:1000万+
  3. 推荐系统增强

    利用知识图谱改进推荐:

    • CTR提升:12%
    • 多样性提升:25%
    • 冷启动改善:30%

开放平台建设

2015年,百度推出知识图谱开放平台:

技术影响力

百度知识图谱技术的学术贡献: