Transformer架构深度解析：从Attention到RLHF

文档摘要

Transformer架构深度解析：从Attention到RLHF 核心创新 Transformer于2017年提出，彻底改变NLP领域。核心创新在于： Self-Attention机制 Q（Query）、K（Key）、V（Value）来自输入的线性变换缩放点积避免梯度消失并行计算，效率远超RNN 多头注意力不同头关注不同子空间：语法关系语义关联长距离依赖模型演进 GPT系列（Decoder-only） GPT-1（2018） 117M参数无监督预训练 + 有监督微调 GPT-2（2019） 1.5B参数 Zero-shot能力强 GPT-3（2020） 175B参数 Few-shot学习涌现 GPT-3.