附录 A 术语表


文档摘要

附录 A 术语表 学习过程中遇到不认识的术语,来这里查。 A.1 基础概念 术语 | 英文 | 含义 token | token | 文本的最小单元(子词),模型处理的基本单位 词表 | vocabulary | 所有 token 的集合,本项目 50257 个 分词器 | tokenizer | 把文本切成 token 的工具 词嵌入 | embedding | 把 token id 映射为稠密向量的查表操作 上下文窗口 | context window | 模型一次能看到的最大 token 数(本项目 blocksize=128) A.2 分词相关 术语 | 含义 BPE | Byte-Pair Encoding,按频率合并字节对得到子词的算法。GPT 系列用。

附录 A 术语表

学习过程中遇到不认识的术语,来这里查。

A.1 基础概念

术语 英文 含义
token token 文本的最小单元(子词),模型处理的基本单位
词表 vocabulary 所有 token 的集合,本项目 50257 个
分词器 tokenizer 把文本切成 token 的工具
词嵌入 embedding 把 token id 映射为稠密向量的查表操作
上下文窗口 context window 模型一次能看到的最大 token 数(本项目 block_size=128)

A.2 分词相关

术语 含义
BPE Byte-Pair Encoding,按频率合并字节对得到子词的算法。GPT 系列用。
p50k_base tiktoken 提供的 GPT-2 编码方案,词表 50257
未登录词 OOV (Out-Of-Vocabulary),训练时没见过的词。BPE 通过子词切分能处理
特殊 token <|endoftext|><pad> 等,有特殊含义的保留 token

A.3 模型架构

术语 含义
Transformer 2017 年提出的神经网络架构,GPT/BERT/LLaMA 都基于它
注意力 Attention,加权聚合序列各位置信息,权重由 Query·Key 相似度决定
自注意力 Self-Attention,Q/K/V 都来自同一个序列的注意力
多头注意力 Multi-Head Attention,并行多个注意力头,各学不同模式
因果掩码 Causal Mask,下三角掩码,让每个位置只看过去,保证自回归
前馈网络 FFN (Feed-Forward Network),两层 MLP,中间扩展到 4× 维度
残差连接 Residual Connection,x + Sublayer(x),缓解深层网络梯度消失
LayerNorm Layer Normalization,在特征维度归一化,稳定训练
GELU Gaussian Error Linear Unit,GPT 用的激活函数,是 ReLU 的平滑版
Dropout 训练时随机置零部分神经元,防过拟合
权重共享 Tie Weights,让 lm_head 和 wte 用同一张权重表

A.4 训练相关

术语 含义
损失函数 Loss Function,衡量预测与真实差距。语言模型用交叉熵
交叉熵 Cross Entropy,分类/语言建模标配损失
梯度 Gradient,损失对参数的导数,指示下降方向
反向传播 Backpropagation,链式法则自动计算梯度
优化器 Optimizer,根据梯度更新参数的算法(SGD/Adam/AdamW)
AdamW 解耦权重衰减的 Adam,GPT 系列标配
动量 Momentum,梯度的指数移动平均,加速收敛
权重衰减 Weight Decay,把权重往 0 拉的正则化,防过拟合
学习率 Learning Rate,每步更新的步长大小
学习率预热 LR Warmup,训练初期 lr 从 0 线性升到峰值
余弦退火 Cosine Decay,lr 按余弦曲线从峰值降到最小值
梯度裁剪 Gradient Clipping,限制梯度范数,防爆炸
批次大小 Batch Size,每个梯度步用的样本数
Epoch 把训练数据完整过一遍
Step/Iteration 一次梯度更新
Checkpoint 训练中间状态的快照,用于恢复或推理

A.5 推理相关

术语 含义
自回归 Autoregressive,逐 token 生成,每步基于已有全部 token
贪心解码 Greedy Decoding,每步取概率最大的 token,确定但易重复
温度 Temperature,控制采样分布尖锐程度的超参
Top-K 采样 只在概率最高的 K 个 token 中采样
Top-p / Nucleus 在概率累加 ≥ p 的最小 token 集合中采样
Beam Search 维护 K 条候选路径,选整体概率最大的
KV Cache 缓存注意力的 K/V,避免重复计算
Perplexity (PPL) 困惑度 = exp(loss),越低越好

A.6 工程相关

术语 含义
dataclass Python 装饰器,自动生成 __init__/__repr__
state_dict 模型所有权重的字典,用于 save/load
pin_memory 锁页内存,加速 CPU→GPU 数据拷贝
AMP Automatic Mixed Precision,混合精度训练
DDP DistributedDataParallel,PyTorch 单机多卡方案
ZeRO DeepSpeed 的零冗余优化器,切分权重/优化器/梯度
LoRA Low-Rank Adaptation,只训练插入的低秩矩阵
RLHF Reinforcement Learning from Human Feedback,基于人类反馈的强化学习
从零训练 from scratch,不加载预训练权重
微调 finetune,在预训练权重上继续训练

A.7 评估相关

术语 含义
过拟合 Overfitting,训练 loss 低但泛化差
欠拟合 Underfitting,训练 loss 都降不下去
泛化 Generalization,模型在未见数据上的表现
BLEU n-gram 重叠指标,翻译/摘要用
ROUGE 召回为主的指标,摘要用

A.8 缩写速查

缩写 全称
BPE Byte-Pair Encoding
GPT Generative Pre-trained Transformer
LM Language Model
LLM Large Language Model
NLP Natural Language Processing
NLU Natural Language Understanding
NLG Natural Language Generation
CE Cross Entropy
FFN Feed-Forward Network
MHA Multi-Head Attention
LN LayerNorm
LR Learning Rate
WD Weight Decay
OOM Out Of Memory
PPL Perplexity
RLHF Reinforcement Learning from Human Feedback
SFT Supervised Fine-Tuning
DPO Direct Preference Optimization
MoE Mixture of Experts

发布者: 作者: 转发
评论区 (0)
U