3.1剪枝

文档摘要

3.1 剪枝 3.1.1 剪枝简介 &emsp;&emsp;在本章节，我们将介绍LLM剪枝的相关知识。大型语言模型（LLMs）在推理过程中通常需要高计算成本、内存访问成本和大量内存使用，导致效率指标降低，例如在资源受限场景中的延迟、吞吐量、功耗和存储需求增加。这给LLMs在边缘和云端应用带来了挑战。LLM参数量可以轻松达到上万亿，因此需要特殊的压缩技术来降低部署成本和提升推理性能。大模型剪枝是一种有效的模型压缩方法，其目的是通过移除模型中冗余或不重要的参数（例如神经元或连接权重），以减少模型的大小和计算需求，同时尽量保持其性能。 &emsp;&emsp;与普通模型的剪枝相比，大模型剪枝面临的挑战和采取的策略有所不同。