LLM推理加速-Skill优仓

LLM推理加速-Skill优仓

显存不够用？AWQ量化让70B大模型塞进消费级显卡，速度还快3倍🔥-Skill优仓

显存不够用？AWQ量化让70B大模型塞进消费级显卡，速度还快3倍🔥

AWQ（Activation-aware Weight Quantization）是MIT Han Lab提出的4-bit大模型量化方案，荣获MLSys 2024最佳论文奖。通过激活感知权重保护技术，将70B模型显存从140GB压缩至35GB，推理速度提升2...

免费资源数据与AI

Skill优仓3个月前

0575

LLM推理速度直接翻倍？Speculative Decoding三大技术亲测对比，代码全给你🚀-Skill优仓

LLM推理速度直接翻倍？Speculative Decoding三大技术亲测对比，代码全给你🚀

Speculative Decoding是一套专为LLM推理提速设计的技术方案，涵盖Draft Model投机解码、Medusa多头解码和Lookahead Decoding三种主流方法，在零质量损失的前提下实现1.5到3.6倍推理加速。适合需...

免费资源数据与AI

Skill优仓3个月前

0607