预训练,就是通过海量无标注数据学习语言的统计模式和语义信息,构建通用知识基础。直白说,预训练就是阅读知识,譬如通过互联网的网页、书籍、代码、学术论文等数据源,这些是基础训练数据,规模高达数万亿token,它主要是依赖高性能的GPU集群(如数千块NVIDIA A100 GPU),训练耗时可达数月至数月以上。例如,GPT-3的训练成本约为3,640 PFLOPS,需1,000块GPU运行近一个月。然后,基于这些知识生成基础模型,具备语言生成和文本补全能力,但尚未针对特定任务优化。
有监督微调,就是通过少量高质量标注数据,使模型适应具体任务(如问答、翻译、代码生成)。这个是使用包含“提示词-理想输出”的标注数据集(如问题与答案对),进行指令微调。这个训练,资源需求就没那么大了,通常仅需数十块GPU,耗时数天就能完成,结果是生成SFT模型,具备初步的指令理解和任务执行能力,例如ChatGPT早期版本即属此类。
奖励建模,就是构建一个评估模型生成文本质量的对比模型,为后续强化学习提供反馈信号。这个环节,是使用百万量级的对比数据标注,训练二分类模型,判断不同输出的优劣。标注数据需人工参与,涉及高成本和一致性管理挑战。奖励模型本身不直接面向用户,但为强化学习阶段的参数优化提供关键指导。