大模型对齐-Skill优仓

训练70B大模型还在用DeepSpeedChat？OpenRLHF速度直接翻倍🚀真的建议锁死

OpenRLHF是基于Ray和vLLM的高性能RLHF训练框架，支持PPO、GRPO、RLOO、DPO四种对齐算法，专为7B到70B+大语言模型设计。通过Hybrid Engine实现GPU资源动态共享，训练速度比DeepSpeedChat快2倍。...

Skill优仓4个月前

03911