Supervised Fine-Tuning(监督微调) 一、基础原理 背景 预训练是让模型学习语言本身和海量知识。它的目标是预测下一个词。你给它半句话,它能补全。但这种补全是基于互联网语料的最可能补全,而不是最有帮助的回答。 比如你问"法国的首都在哪里",一个只预训练过的模型很可能接着预测"法国最大的城市是哪个"或者"法国的历史有多久"。它在延续话题,而不是在回答问题。 SFT 也就是监督微调,目标是解决这个问题。它的任务是教模型如何对话和遵循指令。 在一个完整聊天模型流程里,比如从预训练到能聊天的 NanoChat,SFT 扮演的是行为塑造的初级阶段。 对比 pretrain 和 sft,预训练是学知识,SFT 则是学规矩。