video_codec_tutorial

视频编解码算法教程

简介

本教程旨在为经验丰富的程序员和AI科学家提供一份关于现代视频编解码算法的深入中文指南。我们将从数字视频的基础知识开始，逐步深入到混合编码框架的核心组件，最终探讨最新的编码标准和前沿技术。

每个章节都经过精心设计，以文字论述为主，辅以必要的公式、图示和实用经验（rules-of-thumb），帮助您建立直观且扎实的理解。

第一章：数字视频与压缩基础
- 引言：为什么需要视频压缩？
- 数字视频的关键概念：分辨率、帧率、色深
- 冗余的类型：空间冗余、时间冗余、感知冗余
- 通用编解码框架概览
- 高级话题：感知视频编码 (Perceptual Video Coding)
- AI 算法改进：基于深度学习的视频质量评估
- 历史事件/人物：MPEG (Moving Picture Experts Group) 的成立
- 当代事件/人物：Alliance for Open Media (AOMedia) 的崛起
第二章：视频信号的表示
- 色彩空间：RGB 与 YCbCr/YUV
- 色度采样：4:4:4, 4:2:2, 4:2:0 的原理与应用
- 位深 (Bit Depth) 与动态范围
- 高级话题：高动态范围 (HDR) 与宽色域 (WCG)
- AI 算法改进：超分辨率 (Super-resolution) 与色彩增强
- 历史事件/人物：Charles Poynton 与色彩科学
- 当代事件/人物：Dolby Vision 与 HDR10+ 的竞争
第三章：帧内预测 (Intra-frame Prediction)
- 基本原理：利用空间冗余
- 方向性预测模式
- DC 预测与平面预测 (Planar Prediction)
- 高级话题：基于神经网络的帧内预测
- AI 算法改进：生成式对抗网络 (GAN) 用于纹理生成
- 历史事件/人物：H.264/AVC 中复杂的帧内预测模式
- 当代事件/人物：VVC (H.266) 中新增的矩阵内预测 (MIP)
第四章：帧间预测 (Inter-frame Prediction)
- 基本原理：利用时间冗余
- 运动估计 (Motion Estimation)
- 运动补偿 (Motion Compensation)
- 参考帧、P帧、B帧与GOP结构
- 高级话题：光流法 (Optical Flow) 与更复杂的运动模型
- AI 算法改进：基于深度学习的运动估计与运动矢量预测
- 历史事件/人物：Arun Netravali 与运动补偿的发明
- 当代事件/人物：NVIDIA 的光流分析硬件加速
第五章：变换编码 (Transform Coding)
- 目标：能量集中与去相关
- 离散余弦变换 (DCT)
- 整数变换及其在现代编码中的应用
- 高级话题：自适应多变换核心 (AMT)
- AI 算法改进：学习型变换 (Learned Transform) 代替 DCT
- 历史事件/人物：Nasir Ahmed, T. Natarajan 和 K. R. Rao 发明 DCT
- 当代事件/人物：AV1 中的非对称变换 (Asymmetric Transforms)
第六章：量化 (Quantization)
- 信息损失的来源
- 标量量化 (Scalar Quantization)
- 量化参数 (QP) 的作用与影响
- 高级话题：视觉心理学与量化矩阵
- AI 算法改进：基于内容的自适应量化 (Content-Adaptive Quantization)
- 历史事件/人物：Lloyd-Max 算法
- 当代事件/人物：感知量化 (Perceptual Quantization, PQ) 在 HDR 中的应用
第七章：熵编码 (Entropy Coding)
- 无损压缩的最后一步
- 上下文自适应的变长编码 (CAVLC)
- 上下文自适应的二进制算术编码 (CABAC)
- 高级话题：非对称数系 (Asymmetric Numeral Systems, ANS)
- AI 算法改进：基于神经网络的概率模型预测
- 历史事件/人物：Claude Shannon 与信息论
- 当代事件/人物：Google 的 rANS 和 Facebook 的 Zstandard
第八章：环路滤波 (In-loop Filtering)
- 块效应 (Blocking Artifacts) 的产生
- 去块效应滤波器 (Deblocking Filter)
- 采样自适应偏移 (SAO)
- 高级话题：自适应环路滤波 (ALF)
- AI 算法改进：基于 CNN 的伪影去除 (Artifact Removal)
- 历史事件/人物：H.264/AVC 中首次引入环路滤波
- 当代事件/人物：VVC 中更强大的环路滤波工具集
第九章：码率控制 (Rate Control)
- 为何需要码率控制
- 常见模型：CBR, VBR, CRF
- 率失真优化 (Rate-Distortion Optimization, RDO) 简介
- 高级话题：多遍编码 (Multi-pass Encoding)
- AI 算法改进：基于强化学习的码率控制策略
- 历史事件/人物：Gary Sullivan 与率失真优化理论
- 当代事件/人物：Netflix 的动态优化器 (Dynamic Optimizer)
第十章：现代视频编码标准
- H.264/AVC 的里程碑
- H.265/HEVC 的演进：编码树单元 (CTU)
- AV1 的开放标准与新技术
- 高级话题：专利池 (Patent Pools) 与授权模式
- AI 算法改进：端到端神经视频编码 (End-to-End Neural Video Coding)
- 历史事件/人物：Video Coding Experts Group (VCEG) 的成立
- 当代事件/人物：AV1 与 HEVC/VVC 的标准之争
第十一章：多视图与沉浸式视频编码
- 应用场景：自动驾驶、VR/AR
- 多视图视频编码 (MVC)
- 360度视频的挑战与投影格式
- 高级话题：点云压缩 (Point Cloud Compression)
- AI 算法改进：基于视图合成的预测 (View Synthesis Prediction)
- 历史事件/人物：3D 电视的兴衰
- 当代事件/人物：Apple Vision Pro 与空间视频 (Spatial Video)
第十二章：前沿与未来
- AI/机器学习在视频编码中的应用
- 通用视频编码 (VVC/H.266)
- 面向机器视觉的编码 (VCM)
- 高级话题：语义通信 (Semantic Communication)
- AI 算法改进：统一的生成式视频压缩模型
- 历史事件/人物：Geoffrey Hinton 等深度学习先驱
- 当代事件/人物：NVIDIA Maxine 与 AI 驱动的实时通信

video_codec_tutorial

视频编解码算法教程

简介

目录