排序
不需要校准数据集!HQQ量化LLM模型4-bit压缩真的绝了🔥
HQQ(Half-Quadratic Quantization)是一种无需校准数据集的大模型权重量化方案,支持8/4/3/2/1-bit多精度压缩,量化速度比GPTQ/AWQ快数十倍。原生兼容HuggingFace Transformers和vLLM,支持Mar...
70B模型压缩到7B还能保住90%性能?Knowledge Distillation这个操作真的绝了🔥
Knowledge Distillation是一个专注LLM压缩的实战Skill,支持将70B大模型压缩至7B同时保留90%以上性能。覆盖温度缩放、软目标、MiniLLM反向KLD、logit蒸馏等核心技术,内置生产级DistillationTra...



