视频编解码算法教程
简介
本教程旨在为经验丰富的程序员和AI科学家提供一份关于现代视频编解码算法的深入中文指南。我们将从数字视频的基础知识开始,逐步深入到混合编码框架的核心组件,最终探讨最新的编码标准和前沿技术。
每个章节都经过精心设计,以文字论述为主,辅以必要的公式、图示和实用经验(rules-of-thumb),帮助您建立直观且扎实的理解。
目录
- 第一章:数字视频与压缩基础
- 引言:为什么需要视频压缩?
- 数字视频的关键概念:分辨率、帧率、色深
- 冗余的类型:空间冗余、时间冗余、感知冗余
- 通用编解码框架概览
- 高级话题:感知视频编码 (Perceptual Video Coding)
- AI 算法改进:基于深度学习的视频质量评估
- 历史事件/人物:MPEG (Moving Picture Experts Group) 的成立
- 当代事件/人物:Alliance for Open Media (AOMedia) 的崛起
- 第二章:视频信号的表示
- 色彩空间:RGB 与 YCbCr/YUV
- 色度采样:4:4:4, 4:2:2, 4:2:0 的原理与应用
- 位深 (Bit Depth) 与动态范围
- 高级话题:高动态范围 (HDR) 与宽色域 (WCG)
- AI 算法改进:超分辨率 (Super-resolution) 与色彩增强
- 历史事件/人物:Charles Poynton 与色彩科学
- 当代事件/人物:Dolby Vision 与 HDR10+ 的竞争
- 第三章:帧内预测 (Intra-frame Prediction)
- 基本原理:利用空间冗余
- 方向性预测模式
- DC 预测与平面预测 (Planar Prediction)
- 高级话题:基于神经网络的帧内预测
- AI 算法改进:生成式对抗网络 (GAN) 用于纹理生成
- 历史事件/人物:H.264/AVC 中复杂的帧内预测模式
- 当代事件/人物:VVC (H.266) 中新增的矩阵内预测 (MIP)
- 第四章:帧间预测 (Inter-frame Prediction)
- 基本原理:利用时间冗余
- 运动估计 (Motion Estimation)
- 运动补偿 (Motion Compensation)
- 参考帧、P帧、B帧与GOP结构
- 高级话题:光流法 (Optical Flow) 与更复杂的运动模型
- AI 算法改进:基于深度学习的运动估计与运动矢量预测
- 历史事件/人物:Arun Netravali 与运动补偿的发明
- 当代事件/人物:NVIDIA 的光流分析硬件加速
- 第五章:变换编码 (Transform Coding)
- 目标:能量集中与去相关
- 离散余弦变换 (DCT)
- 整数变换及其在现代编码中的应用
- 高级话题:自适应多变换核心 (AMT)
- AI 算法改进:学习型变换 (Learned Transform) 代替 DCT
- 历史事件/人物:Nasir Ahmed, T. Natarajan 和 K. R. Rao 发明 DCT
- 当代事件/人物:AV1 中的非对称变换 (Asymmetric Transforms)
- 第六章:量化 (Quantization)
- 信息损失的来源
- 标量量化 (Scalar Quantization)
- 量化参数 (QP) 的作用与影响
- 高级话题:视觉心理学与量化矩阵
- AI 算法改进:基于内容的自适应量化 (Content-Adaptive Quantization)
- 历史事件/人物:Lloyd-Max 算法
- 当代事件/人物:感知量化 (Perceptual Quantization, PQ) 在 HDR 中的应用
- 第七章:熵编码 (Entropy Coding)
- 无损压缩的最后一步
- 上下文自适应的变长编码 (CAVLC)
- 上下文自适应的二进制算术编码 (CABAC)
- 高级话题:非对称数系 (Asymmetric Numeral Systems, ANS)
- AI 算法改进:基于神经网络的概率模型预测
- 历史事件/人物:Claude Shannon 与信息论
- 当代事件/人物:Google 的 rANS 和 Facebook 的 Zstandard
- 第八章:环路滤波 (In-loop Filtering)
- 块效应 (Blocking Artifacts) 的产生
- 去块效应滤波器 (Deblocking Filter)
- 采样自适应偏移 (SAO)
- 高级话题:自适应环路滤波 (ALF)
- AI 算法改进:基于 CNN 的伪影去除 (Artifact Removal)
- 历史事件/人物:H.264/AVC 中首次引入环路滤波
- 当代事件/人物:VVC 中更强大的环路滤波工具集
- 第九章:码率控制 (Rate Control)
- 为何需要码率控制
- 常见模型:CBR, VBR, CRF
- 率失真优化 (Rate-Distortion Optimization, RDO) 简介
- 高级话题:多遍编码 (Multi-pass Encoding)
- AI 算法改进:基于强化学习的码率控制策略
- 历史事件/人物:Gary Sullivan 与率失真优化理论
- 当代事件/人物:Netflix 的动态优化器 (Dynamic Optimizer)
- 第十章:现代视频编码标准
- H.264/AVC 的里程碑
- H.265/HEVC 的演进:编码树单元 (CTU)
- AV1 的开放标准与新技术
- 高级话题:专利池 (Patent Pools) 与授权模式
- AI 算法改进:端到端神经视频编码 (End-to-End Neural Video Coding)
- 历史事件/人物:Video Coding Experts Group (VCEG) 的成立
- 当代事件/人物:AV1 与 HEVC/VVC 的标准之争
- 第十一章:多视图与沉浸式视频编码
- 应用场景:自动驾驶、VR/AR
- 多视图视频编码 (MVC)
- 360度视频的挑战与投影格式
- 高级话题:点云压缩 (Point Cloud Compression)
- AI 算法改进:基于视图合成的预测 (View Synthesis Prediction)
- 历史事件/人物:3D 电视的兴衰
- 当代事件/人物:Apple Vision Pro 与空间视频 (Spatial Video)
- 第十二章:前沿与未来
- AI/机器学习在视频编码中的应用
- 通用视频编码 (VVC/H.266)
- 面向机器视觉的编码 (VCM)
- 高级话题:语义通信 (Semantic Communication)
- AI 算法改进:统一的生成式视频压缩模型
- 历史事件/人物:Geoffrey Hinton 等深度学习先驱
- 当代事件/人物:NVIDIA Maxine 与 AI 驱动的实时通信