Transformer架构深度解析:从Attention到RLHF 核心创新 Transformer于2017年提出,彻底改变NLP领域。核心创新在于: Self-Attention机制 Q(Query)、K(Key)、V(Value)来自输入的线性变换 缩放点积避免梯度消失 并行计算,效率远超RNN 多头注意力 不同头关注不同子空间: 语法关系 语义关联 长距离依赖 模型演进 GPT系列(Decoder-only) GPT-1(2018) 117M参数 无监督预训练 + 有监督微调 GPT-2(2019) 1.5B参数 Zero-shot能力强 GPT-3(2020) 175B参数 Few-shot学习涌现 GPT-3.