OpenRLHF共1篇
训练70B大模型还在用DeepSpeedChat?OpenRLHF速度直接翻倍🚀真的建议锁死-Skill优仓

训练70B大模型还在用DeepSpeedChat?OpenRLHF速度直接翻倍🚀真的建议锁死

OpenRLHF是基于Ray和vLLM的高性能RLHF训练框架,支持PPO、GRPO、RLOO、DPO四种对齐算法,专为7B到70B+大语言模型设计。通过Hybrid Engine实现GPU资源动态共享,训练速度比DeepSpeedChat快2倍。...
Skill优仓的头像-Skill优仓Skill优仓6天前
03111