文档摘要
附录 A 术语表 学习过程中遇到不认识的术语,来这里查。 A.1 基础概念 术语 | 英文 | 含义 token | token | 文本的最小单元(子词),模型处理的基本单位 词表 | vocabulary | 所有 token 的集合,本项目 50257 个 分词器 | tokenizer | 把文本切成 token 的工具 词嵌入 | embedding | 把 token id 映射为稠密向量的查表操作 上下文窗口 | context window | 模型一次能看到的最大 token 数(本项目 blocksize=128) A.2 分词相关 术语 | 含义 BPE | Byte-Pair Encoding,按频率合并字节对得到子词的算法。GPT 系列用。
附录 A 术语表
学习过程中遇到不认识的术语,来这里查。
A.1 基础概念
| 术语 |
英文 |
含义 |
| token |
token |
文本的最小单元(子词),模型处理的基本单位 |
| 词表 |
vocabulary |
所有 token 的集合,本项目 50257 个 |
| 分词器 |
tokenizer |
把文本切成 token 的工具 |
| 词嵌入 |
embedding |
把 token id 映射为稠密向量的查表操作 |
| 上下文窗口 |
context window |
模型一次能看到的最大 token 数(本项目 block_size=128) |
A.2 分词相关
| 术语 |
含义 |
| BPE |
Byte-Pair Encoding,按频率合并字节对得到子词的算法。GPT 系列用。 |
| p50k_base |
tiktoken 提供的 GPT-2 编码方案,词表 50257 |
| 未登录词 |
OOV (Out-Of-Vocabulary),训练时没见过的词。BPE 通过子词切分能处理 |
| 特殊 token |
<|endoftext|>、<pad> 等,有特殊含义的保留 token |
A.3 模型架构
| 术语 |
含义 |
| Transformer |
2017 年提出的神经网络架构,GPT/BERT/LLaMA 都基于它 |
| 注意力 |
Attention,加权聚合序列各位置信息,权重由 Query·Key 相似度决定 |
| 自注意力 |
Self-Attention,Q/K/V 都来自同一个序列的注意力 |
| 多头注意力 |
Multi-Head Attention,并行多个注意力头,各学不同模式 |
| 因果掩码 |
Causal Mask,下三角掩码,让每个位置只看过去,保证自回归 |
| 前馈网络 |
FFN (Feed-Forward Network),两层 MLP,中间扩展到 4× 维度 |
| 残差连接 |
Residual Connection,x + Sublayer(x),缓解深层网络梯度消失 |
| LayerNorm |
Layer Normalization,在特征维度归一化,稳定训练 |
| GELU |
Gaussian Error Linear Unit,GPT 用的激活函数,是 ReLU 的平滑版 |
| Dropout |
训练时随机置零部分神经元,防过拟合 |
| 权重共享 |
Tie Weights,让 lm_head 和 wte 用同一张权重表 |
A.4 训练相关
| 术语 |
含义 |
| 损失函数 |
Loss Function,衡量预测与真实差距。语言模型用交叉熵 |
| 交叉熵 |
Cross Entropy,分类/语言建模标配损失 |
| 梯度 |
Gradient,损失对参数的导数,指示下降方向 |
| 反向传播 |
Backpropagation,链式法则自动计算梯度 |
| 优化器 |
Optimizer,根据梯度更新参数的算法(SGD/Adam/AdamW) |
| AdamW |
解耦权重衰减的 Adam,GPT 系列标配 |
| 动量 |
Momentum,梯度的指数移动平均,加速收敛 |
| 权重衰减 |
Weight Decay,把权重往 0 拉的正则化,防过拟合 |
| 学习率 |
Learning Rate,每步更新的步长大小 |
| 学习率预热 |
LR Warmup,训练初期 lr 从 0 线性升到峰值 |
| 余弦退火 |
Cosine Decay,lr 按余弦曲线从峰值降到最小值 |
| 梯度裁剪 |
Gradient Clipping,限制梯度范数,防爆炸 |
| 批次大小 |
Batch Size,每个梯度步用的样本数 |
| Epoch |
把训练数据完整过一遍 |
| Step/Iteration |
一次梯度更新 |
| Checkpoint |
训练中间状态的快照,用于恢复或推理 |
A.5 推理相关
| 术语 |
含义 |
| 自回归 |
Autoregressive,逐 token 生成,每步基于已有全部 token |
| 贪心解码 |
Greedy Decoding,每步取概率最大的 token,确定但易重复 |
| 温度 |
Temperature,控制采样分布尖锐程度的超参 |
| Top-K 采样 |
只在概率最高的 K 个 token 中采样 |
| Top-p / Nucleus |
在概率累加 ≥ p 的最小 token 集合中采样 |
| Beam Search |
维护 K 条候选路径,选整体概率最大的 |
| KV Cache |
缓存注意力的 K/V,避免重复计算 |
| Perplexity (PPL) |
困惑度 = exp(loss),越低越好 |
A.6 工程相关
| 术语 |
含义 |
| dataclass |
Python 装饰器,自动生成 __init__/__repr__ |
| state_dict |
模型所有权重的字典,用于 save/load |
| pin_memory |
锁页内存,加速 CPU→GPU 数据拷贝 |
| AMP |
Automatic Mixed Precision,混合精度训练 |
| DDP |
DistributedDataParallel,PyTorch 单机多卡方案 |
| ZeRO |
DeepSpeed 的零冗余优化器,切分权重/优化器/梯度 |
| LoRA |
Low-Rank Adaptation,只训练插入的低秩矩阵 |
| RLHF |
Reinforcement Learning from Human Feedback,基于人类反馈的强化学习 |
| 从零训练 |
from scratch,不加载预训练权重 |
| 微调 |
finetune,在预训练权重上继续训练 |
A.7 评估相关
| 术语 |
含义 |
| 过拟合 |
Overfitting,训练 loss 低但泛化差 |
| 欠拟合 |
Underfitting,训练 loss 都降不下去 |
| 泛化 |
Generalization,模型在未见数据上的表现 |
| BLEU |
n-gram 重叠指标,翻译/摘要用 |
| ROUGE |
召回为主的指标,摘要用 |
A.8 缩写速查
| 缩写 |
全称 |
| BPE |
Byte-Pair Encoding |
| GPT |
Generative Pre-trained Transformer |
| LM |
Language Model |
| LLM |
Large Language Model |
| NLP |
Natural Language Processing |
| NLU |
Natural Language Understanding |
| NLG |
Natural Language Generation |
| CE |
Cross Entropy |
| FFN |
Feed-Forward Network |
| MHA |
Multi-Head Attention |
| LN |
LayerNorm |
| LR |
Learning Rate |
| WD |
Weight Decay |
| OOM |
Out Of Memory |
| PPL |
Perplexity |
| RLHF |
Reinforcement Learning from Human Feedback |
| SFT |
Supervised Fine-Tuning |
| DPO |
Direct Preference Optimization |
| MoE |
Mixture of Experts |