10.1KV-Cache


文档摘要

10.1 KV-Cache 随着大模型技术的快速发展与火爆,近两年也诞生出了众多针对大模型推理优化的技术,在大模型广泛应用的今天,这些技术已十分成熟与普及,本文也将介绍一些常见的,已成为大模型推理标配的推理技术。 现在的大模型架构大多数是基于 Transformer 架构,并且是仅使用解码器,即 Decoder-Only Transformer 架构,故本文将针对此种模型架构所使用的显存优化技术 KV-Cache 进行阐述。 10.1.1. 引言 KV Cache 是针对 Transformer Decoder 在解码过程中产生的计算复杂度以及重复计算问题而提出的一种算法,该算法对大模型的推理性能进行了优化,并且不影响任何计算精度,是一种典型的以空间换时间的算法。 10.1.2.


发布者: 作者: 转发
评论区 (0)
U