6.2.1 显存优化:激活值重算 (Recomputation)


文档摘要

6.2.1 显存优化:激活值重算 (Recomputation) 6.2.1 显存优化:激活值重算(Recomputation)——从原理到工业级实现的深度实践指南 你有没有在训练一个13B参数的LLaMA模型时,突然被 的红色报错拦在凌晨三点? 有没有在调试一个带长序列注意力的Vision Transformer时,眼睁睁看着显存占用曲线像坐过山车一样——前向一路飙升至98%,反向传播却因无法保存全部中间激活而直接崩盘? 更微妙的是,你是否注意到:同一份代码,在A100上能跑通,在V100上却死于显存;把 改成 就“侥幸”通过,但吞吐量直接腰斩——这种“玄学式”的资源瓶颈,真的只是硬件不够强吗? 不。


发布者: 作者: 转发
评论区 (0)
U