附录 A 术语表

文档摘要

学习过程中遇到不认识的术语，来这里查。

术语	英文	含义
token	token	文本的最小单元（子词），模型处理的基本单位
词表	vocabulary	所有 token 的集合，本项目 50257 个
分词器	tokenizer	把文本切成 token 的工具
词嵌入	embedding	把 token id 映射为稠密向量的查表操作
上下文窗口	context window	模型一次能看到的最大 token 数（本项目 block_size=128）

术语	含义
BPE	Byte-Pair Encoding，按频率合并字节对得到子词的算法。GPT 系列用。
p50k_base	tiktoken 提供的 GPT-2 编码方案，词表 50257
未登录词	OOV (Out-Of-Vocabulary)，训练时没见过的词。BPE 通过子词切分能处理
特殊 token	`<\|endoftext\|>`、`<pad>` 等，有特殊含义的保留 token

术语	含义
Transformer	2017 年提出的神经网络架构，GPT/BERT/LLaMA 都基于它
注意力	Attention，加权聚合序列各位置信息，权重由 Query·Key 相似度决定
自注意力	Self-Attention，Q/K/V 都来自同一个序列的注意力
多头注意力	Multi-Head Attention，并行多个注意力头，各学不同模式
因果掩码	Causal Mask，下三角掩码，让每个位置只看过去，保证自回归
前馈网络	FFN (Feed-Forward Network)，两层 MLP，中间扩展到 4× 维度
残差连接	Residual Connection，`x + Sublayer(x)`，缓解深层网络梯度消失
LayerNorm	Layer Normalization，在特征维度归一化，稳定训练
GELU	Gaussian Error Linear Unit，GPT 用的激活函数，是 ReLU 的平滑版
Dropout	训练时随机置零部分神经元，防过拟合
权重共享	Tie Weights，让 lm_head 和 wte 用同一张权重表

术语	含义
损失函数	Loss Function，衡量预测与真实差距。语言模型用交叉熵
交叉熵	Cross Entropy，分类/语言建模标配损失
梯度	Gradient，损失对参数的导数，指示下降方向
反向传播	Backpropagation，链式法则自动计算梯度
优化器	Optimizer，根据梯度更新参数的算法（SGD/Adam/AdamW）
AdamW	解耦权重衰减的 Adam，GPT 系列标配
动量	Momentum，梯度的指数移动平均，加速收敛
权重衰减	Weight Decay，把权重往 0 拉的正则化，防过拟合
学习率	Learning Rate，每步更新的步长大小
学习率预热	LR Warmup，训练初期 lr 从 0 线性升到峰值
余弦退火	Cosine Decay，lr 按余弦曲线从峰值降到最小值
梯度裁剪	Gradient Clipping，限制梯度范数，防爆炸
批次大小	Batch Size，每个梯度步用的样本数
Epoch	把训练数据完整过一遍
Step/Iteration	一次梯度更新
Checkpoint	训练中间状态的快照，用于恢复或推理

术语	含义
自回归	Autoregressive，逐 token 生成，每步基于已有全部 token
贪心解码	Greedy Decoding，每步取概率最大的 token，确定但易重复
温度	Temperature，控制采样分布尖锐程度的超参
Top-K 采样	只在概率最高的 K 个 token 中采样
Top-p / Nucleus	在概率累加 ≥ p 的最小 token 集合中采样
Beam Search	维护 K 条候选路径，选整体概率最大的
KV Cache	缓存注意力的 K/V，避免重复计算
Perplexity (PPL)	困惑度 = exp(loss)，越低越好

术语	含义
dataclass	Python 装饰器，自动生成 `__init__`/`__repr__`
state_dict	模型所有权重的字典，用于 save/load
pin_memory	锁页内存，加速 CPU→GPU 数据拷贝
AMP	Automatic Mixed Precision，混合精度训练
DDP	DistributedDataParallel，PyTorch 单机多卡方案
ZeRO	DeepSpeed 的零冗余优化器，切分权重/优化器/梯度
LoRA	Low-Rank Adaptation，只训练插入的低秩矩阵
RLHF	Reinforcement Learning from Human Feedback，基于人类反馈的强化学习
从零训练	from scratch，不加载预训练权重
微调	finetune，在预训练权重上继续训练

术语	含义
过拟合	Overfitting，训练 loss 低但泛化差
欠拟合	Underfitting，训练 loss 都降不下去
泛化	Generalization，模型在未见数据上的表现
BLEU	n-gram 重叠指标，翻译/摘要用
ROUGE	召回为主的指标，摘要用

缩写	全称
BPE	Byte-Pair Encoding
GPT	Generative Pre-trained Transformer
LM	Language Model
LLM	Large Language Model
NLP	Natural Language Processing
NLU	Natural Language Understanding
NLG	Natural Language Generation
CE	Cross Entropy
FFN	Feed-Forward Network
MHA	Multi-Head Attention
LN	LayerNorm
LR	Learning Rate
WD	Weight Decay
OOM	Out Of Memory
PPL	Perplexity
RLHF	Reinforcement Learning from Human Feedback
SFT	Supervised Fine-Tuning
DPO	Direct Preference Optimization
MoE	Mixture of Experts