RNN Transformer混合模型共1篇
Transformer显存爆炸?RWKV架构让百万token推理内存降低1000倍🔥-Skill优仓

Transformer显存爆炸?RWKV架构让百万token推理内存降低1000倍🔥

RWKV是一种RNN与Transformer的混合架构,训练时像GPT一样并行,推理时像RNN一样高效,彻底告别KV缓存爆显存的噩梦。支持无限上下文、O(1)内存推理,最大14B参数模型已在微软Windows、Office中落...
Skill优仓的头像-Skill优仓Skill优仓6天前
04410