本教程深入探讨神经网络处理器(NPU)的设计全流程,从上游算法映射到RTL实现、验证与仿真。课程聚焦自动驾驶和具身智能两大前沿应用场景,以200 TOPS推理性能为设计目标,支持2:4结构化稀疏和nvfp4量化。通过对比脉动阵列(Systolic Array)和数据流(Dataflow)两种主流架构,结合TPU和Groq TSP的实际案例,帮助读者掌握NPU设计的核心技术。
本教程持续更新中,欢迎反馈与贡献