LLM推理加速共2篇
显存不够用?AWQ量化让70B大模型塞进消费级显卡,速度还快3倍🔥-Skill优仓

显存不够用?AWQ量化让70B大模型塞进消费级显卡,速度还快3倍🔥

AWQ(Activation-aware Weight Quantization)是MIT Han Lab提出的4-bit大模型量化方案,荣获MLSys 2024最佳论文奖。通过激活感知权重保护技术,将70B模型显存从140GB压缩至35GB,推理速度提升2...
Skill优仓的头像-Skill优仓Skill优仓6天前
0485
LLM推理速度直接翻倍?Speculative Decoding三大技术亲测对比,代码全给你🚀-Skill优仓

LLM推理速度直接翻倍?Speculative Decoding三大技术亲测对比,代码全给你🚀

Speculative Decoding是一套专为LLM推理提速设计的技术方案,涵盖Draft Model投机解码、Medusa多头解码和Lookahead Decoding三种主流方法,在零质量损失的前提下实现1.5到3.6倍推理加速。适合需...
Skill优仓的头像-Skill优仓Skill优仓6天前
0487