GRPO自动化训练-Skill优仓

手搓强化学习训练太痛苦？GRPO/RL Training Skill让模型自己学会推理🔥

GRPO/RL Training Skill是一个专为TRL框架设计的专家级强化学习训练技能包，内置20+奖励函数模板、生产级训练脚本和完整调参指南。无论是数学推理、代码生成还是结构化输出，都能通过组相对策略...

Skill优仓4个月前

04211