分布式训练共3篇
40行代码变15行!PyTorch Lightning让分布式训练真的不再头疼🔥-Skill优仓

40行代码变15行!PyTorch Lightning让分布式训练真的不再头疼🔥

PyTorch Lightning是基于PyTorch的高层训练框架,通过LightningModule和Trainer类将工程样板代码与研究逻辑彻底分离。支持DDP、FSDP、DeepSpeed一行切换,自动处理GPU调度、混合精度、断点续训...
Skill优仓的头像-Skill优仓Skill优仓6天前
02513
4行代码搞定分布式训练?HuggingFace Accelerate真的让人上头🔥-Skill优仓

4行代码搞定分布式训练?HuggingFace Accelerate真的让人上头🔥

HuggingFace Accelerate是目前最简洁的PyTorch分布式训练框架,只需4行代码改造,即可让单卡脚本无缝运行在多GPU、多节点、TPU等各类硬件上。统一支持DDP、DeepSpeed、FSDP、Megatron四种后端,...
Skill优仓的头像-Skill优仓Skill优仓6天前
0228
训练462B超大模型不再是梦?Megatron-Core在H100上跑出47% MFU,真的绝了🔥-Skill优仓

训练462B超大模型不再是梦?Megatron-Core在H100上跑出47% MFU,真的绝了🔥

Megatron-Core是NVIDIA出品的生产级大语言模型训练框架,支持2B到462B参数规模,在H100上实测达到47% MFU。通过张量并行、流水线并行、专家并行等多维并行策略组合,显著提升GPU利用率并降低显...
Skill优仓的头像-Skill优仓Skill优仓6天前
0505