排序
显存不够用?AWQ量化让70B大模型塞进消费级显卡,速度还快3倍🔥
AWQ(Activation-aware Weight Quantization)是MIT Han Lab提出的4-bit大模型量化方案,荣获MLSys 2024最佳论文奖。通过激活感知权重保护技术,将70B模型显存从140GB压缩至35GB,推理速度提升2...
LLM推理速度直接翻倍?Speculative Decoding三大技术亲测对比,代码全给你🚀
Speculative Decoding是一套专为LLM推理提速设计的技术方案,涵盖Draft Model投机解码、Medusa多头解码和Lookahead Decoding三种主流方法,在零质量损失的前提下实现1.5到3.6倍推理加速。适合需...



