显存优化共1篇
显存不够用?AWQ量化让70B大模型塞进消费级显卡,速度还快3倍🔥-Skill优仓

显存不够用?AWQ量化让70B大模型塞进消费级显卡,速度还快3倍🔥

AWQ(Activation-aware Weight Quantization)是MIT Han Lab提出的4-bit大模型量化方案,荣获MLSys 2024最佳论文奖。通过激活感知权重保护技术,将70B模型显存从140GB压缩至35GB,推理速度提升2...
Skill优仓的头像-Skill优仓Skill优仓6天前
0485