DPO偏好对齐训练-Skill优仓

LLM微调搞不定？Axolotl一个YAML配置搞定LoRA/QLoRA/DPO，真的绝了🔥

Axolotl是一个配置驱动的LLM微调框架，支持100+主流模型，覆盖LoRA、QLoRA、DPO、KTO、ORPO、GRPO等微调方式，原生集成FSDP和DeepSpeed分布式训练，还支持多模态。只需维护一份YAML文件就能驱动...

Skill优仓4个月前

04515