分布式训练-Skill优仓

训练462B超大模型不再是梦？Megatron-Core在H100上跑出47% MFU，真的绝了🔥

Megatron-Core是NVIDIA出品的生产级大语言模型训练框架，支持2B到462B参数规模，在H100上实测达到47% MFU。通过张量并行、流水线并行、专家并行等多维并行策略组合，显著提升GPU利用率并降低显...

Skill优仓3个月前

0565

PyTorch Lightning是基于PyTorch的高层训练框架，通过LightningModule和Trainer类将工程样板代码与研究逻辑彻底分离。支持DDP、FSDP、DeepSpeed一行切换，自动处理GPU调度、混合精度、断点续训...

Skill优仓3个月前

03013

HuggingFace Accelerate是目前最简洁的PyTorch分布式训练框架，只需4行代码改造，即可让单卡脚本无缝运行在多GPU、多节点、TPU等各类硬件上。统一支持DDP、DeepSpeed、FSDP、Megatron四种后端，...

Skill优仓3个月前

0278