llm_edge_inference

边缘侧大语言模型推理加速:从算法到系统

前言

随着大语言模型(LLM)和视觉语言模型(VLM)的广泛应用,如何在资源受限的边缘设备上高效部署这些模型成为了关键挑战。本教程面向工业专家和AI科学家,系统性地介绍边缘侧模型推理加速的核心技术,涵盖从底层算法优化到上层系统设计的完整技术栈。

目标读者

教程特色

章节概览

第一部分:理论基础

第1章:边缘推理的挑战与机遇

第2章:性能分析与Roofline模型

第3章:小语言模型(SLM)概览

第二部分:现代量化技术

第4章:后训练量化(PTQ)

第5章:Hessian引导的量化方法

第6章:旋转量化与极低比特量化

第7章:量化友好的模型设计

第8章:量化工具链

第三部分:模型压缩技术

第9章:模型剪枝

第10章:稀疏化与参数共享

第11章:动态网络架构

第12章:知识蒸馏

第四部分:推理系统优化

第13章:注意力机制优化

第14章:KV Cache管理与压缩

第15章:解码加速技术

第16章:首Token延迟(TTFT)优化

第17章:内存管理与Offloading

第18章:边缘推理框架

第五部分:编译器与硬件适配

第19章:深度学习编译器

第20章:硬件特定优化

第21章:跨平台部署实践

第六部分:多模态与实时推理

第22章:视觉编码器优化

第23章:多模态融合与平衡

第24章:实时语音场景优化

第七部分:前沿技术与未来展望

第25章:神经架构搜索(NAS)

第26章:未来技术展望

附录

附录A:数学基础回顾

附录B:常用评估指标

附录C:工具与资源

使用说明

  1. 每章包含详细的数学推导和算法分析
  2. 重点讨论软件设计思想,不包含具体代码实现
  3. 每章末尾提供6-8道练习题,帮助巩固理解
  4. 建议按顺序学习,但各部分也可独立阅读

更新说明

本教程将持续更新,跟踪边缘AI领域的最新进展。欢迎反馈和建议。


最后更新:2025年1月