第四章:大模型核心架构


文档摘要

第四章:大模型核心架构 第四章:大模型核心架构 4.1 大模型架构概述 大模型,特别是近年来涌现的如GPT系列、BERT系列、LLaMA系列等,其核心架构并非横空出世,而是站在了深度学习领域多年发展的基础之上。它们的核心架构可以概括为Transformer架构及其变体。Transformer架构的出现,彻底改变了序列建模领域,并为构建超大规模模型奠定了坚实的基础。 大模型的核心架构之所以重要,是因为它直接影响着模型的以下关键特性: 模型容量(Capacity): 架构决定了模型可以容纳的参数量,参数量越大,理论上模型可以学习和记忆的信息就越多,从而提升模型的表达能力和泛化能力。


发布者: 作者: 转发
评论区 (0)
U