西陆FM

美自断筋骨，中国撬动万亿霸权，AI殖民就此终结

时间：1738815479

来源：

预训练，就是通过海量无标注数据学习语言的统计模式和语义信息，构建通用知识基础。直白说，预训练就是阅读知识，譬如通过互联网的网页、书籍、代码、学术论文等数据源，这些是基础训练数据，规模高达数万亿token，它主要是依赖高性能的GPU集群（如数千块NVIDIA A100 GPU），训练耗时可达数月至数月以上。例如，GPT-3的训练成本约为3，640 PFLOPS，需1，000块GPU运行近一个月。然后，基于这些知识生成基础模型，具备语言生成和文本补全能力，但尚未针对特定任务优化。

有监督微调，就是通过少量高质量标注数据，使模型适应具体任务（如问答、翻译、代码生成）。这个是使用包含“提示词-理想输出”的标注数据集（如问题与答案对），进行指令微调。这个训练，资源需求就没那么大了，通常仅需数十块GPU，耗时数天就能完成，结果是生成SFT模型，具备初步的指令理解和任务执行能力，例如ChatGPT早期版本即属此类。

奖励建模，就是构建一个评估模型生成文本质量的对比模型，为后续强化学习提供反馈信号。这个环节，是使用百万量级的对比数据标注，训练二分类模型，判断不同输出的优劣。标注数据需人工参与，涉及高成本和一致性管理挑战。奖励模型本身不直接面向用户，但为强化学习阶段的参数优化提供关键指导。