测评 AMD GPU 上 FP4 混合精度推理优化 随着前沿大语言模型(LLM)规模不断扩大,对 GPU 计算力和内存带宽的需求激增。GPU 厂商和模型开发者正转向低精度浮点格式,其中 FP4(4 位浮点)量化备受关注,例如 FP4 量化的 Llama 3.3 70B 模型体积缩小 3.5 LMSYS AMD GPU FP4量化 Petit 2026年2月4日 811