大语言模型训练共1篇
训练462B超大模型不再是梦?Megatron-Core在H100上跑出47% MFU,真的绝了🔥-Skill优仓

训练462B超大模型不再是梦?Megatron-Core在H100上跑出47% MFU,真的绝了🔥

Megatron-Core是NVIDIA出品的生产级大语言模型训练框架,支持2B到462B参数规模,在H100上实测达到47% MFU。通过张量并行、流水线并行、专家并行等多维并行策略组合,显著提升GPU利用率并降低显...
Skill优仓的头像-Skill优仓Skill优仓6天前
0505