显存优化-Skill优仓

显存不够用？AWQ量化让70B大模型塞进消费级显卡，速度还快3倍🔥

AWQ（Activation-aware Weight Quantization）是MIT Han Lab提出的4-bit大模型量化方案，荣获MLSys 2024最佳论文奖。通过激活感知权重保护技术，将70B模型显存从140GB压缩至35GB，推理速度提升2...

Skill优仓4个月前

0585