1.1:我们为什么需要量化(Why)


文档摘要

1.1:我们为什么需要量化(Why) 为什么要做量化(量化的意义是什么),然后讲量化的基本原理是什么,以及量化的分类(PTQ和QAT,weight-only 和 weight-act),原理讲解+基本原理代码。 1.1.0 前言:为什么做量化(或者说模型压缩) 举个: 小明想跑一个30G的模型,但是他的显存只有10G,怎么办?一时间小明陷入了沉思。突然他想到了去餐厅吃小龙虾饭打包,小明剩了20个龙虾,但打包盒只能装10个,怎么办呢,小明灵机一动,剥头去尾,这样就可以把20个龙虾打包了。类似的方法能不能在这里实现呢,比如把参数存储的类型从float32变成int8,这样就可以把30G的模型压缩到10G,这样就可以在显存只有10G的设备上跑30G的模型了。


发布者: 作者: 转发
评论区 (0)
U