7.1.3 计算资源瓶颈:大数据量下的内存与算力需求 在分布式机器学习与大规模图计算的实战前线,我见过太多团队在模型训练中途被 OOM(Out of Memory)错误击穿——不是因为算法不收敛,而是因为一个看似普通的 调用,在读入 120GB 的用户行为日志时,悄然吃光了 512GB 主内存;也见过某金融风控平台的实时图神经网络推理服务,在峰值 QPS 达到 8,400 时,GPU 显存占用率稳定在 99.7%,而最后一块显卡上仅剩 18MB 可用空间,导致第 8401 个请求被无声丢弃。这不是玄学,这是内存与算力在数据洪流中失衡的物理实证。 我们常把“大数据”挂在嘴边,却很少俯身检查它的重量:一个浮点数占 4 字节,一亿条记录就是 400MB;