70B模型压缩到7B还能保住90%性能？Knowledge Distillation这个操作真的绝了🔥-Skill优仓

什么是Knowledge Distillation

做AI推理的同学都懂那种痛——70B的大模型效果好，但部署成本高得离谱，换小模型又怕性能掉崖。Knowledge Distillation（知识蒸馏）就是专门解决这个问题的：让大模型（Teacher）把自己的”知识”传授给小模型（Student），让小模型在体积缩小10倍的情况下，依然能保住90%以上的性能表现。

这个Skill由Orchestra Research出品，基于Hinton等人2015年的奠基性论文，并整合了微软MiniLLM（arXiv 2306.08543）的最新进展，覆盖温度缩放、软目标、反向KLD、logit蒸馏等核心技术路线，是目前最系统的LLM压缩实战方案之一。

核心功能

模型压缩：支持70B→7B、13B→1B等多种压缩比，保留绝大部分原始能力。
能力迁移：把GPT-4等闭源模型的能力蒸馏到LLaMA、Mistral等开源模型，合规又省钱。
多种蒸馏策略：Logit蒸馏、Response蒸馏、两阶段蒸馏、多Teacher蒸馏，按需选用。
MiniLLM反向KLD：相比传统前向KL散度，反向KLD更适合生成式任务，文本多样性更强。
生产级训练脚本：内置完整的DistillationTrainer，支持梯度累积、bf16混合精度、梯度检查点，开箱即用。

适用平台

这个Skill完美适配主流AI编程助手，包括Cursor、GitHub Copilot、Claude Code、OpenAI Codex、Gemini Code Assist、文心快码、腾讯云CodeBuddy、华为云CodeArts等。把它加载进你的IDE之后，AI能精准理解蒸馏训练的上下文，自动补全损失函数、超参配置和训练循环，相当于给你的编程助手装了一个专精LLM压缩的”外挂大脑”。

实操代码示例

下面是核心蒸馏损失函数的极简实现，把软损失（KL散度）和硬损失（交叉熵）按比例混合：

def distillation_loss(student_logits, teacher_logits, labels, temperature=2.0, alpha=0.7):
    # 硬损失：用真实标签监督
    hard_loss = F.cross_entropy(
        student_logits.view(-1, student_logits.size(-1)),
        labels.view(-1)
    )
    # 软损失：向Teacher的概率分布学习
    soft_targets = F.softmax(teacher_logits / temperature, dim=-1)
    soft_student = F.log_softmax(student_logits / temperature, dim=-1)
    soft_loss = F.kl_div(soft_student, soft_targets, reduction='batchmean') * (temperature ** 2)
    # alpha=0.7 意味着70%向Teacher学，30%向真实标签学
    return alpha * soft_loss + (1 - alpha) * hard_loss

如果你做的是生成式任务，换成MiniLLM的反向KLD效果更好：

def reverse_kl_loss(student_logits, teacher_logits, temperature=1.0):
    p_teacher = F.softmax(teacher_logits / temperature, dim=-1)
    log_p_student = F.log_softmax(student_logits / temperature, dim=-1)
    return -(p_teacher * log_p_student).sum(dim=-1).mean() * (temperature ** 2)