美自断筋骨,中国撬动万亿霸权,AI殖民就此终结

时间:1738815479
来源:

强化学习,就是基于用户提示和奖励模型的反馈,优化模型生成文本的质量与人类偏好对齐。采用强化学习算法(如近端策略优化PPO),结合用户数据(数十万条提示词)和奖励模型的评估结果,调整模型参数。该阶段显著提升模型输出的准确性和实用性,但可能牺牲生成多样性。生成RL模型,如ChatGPT的最终版本,具备更强的任务适应性和用户意图理解能力

那么,DeepSeek牛在哪呢?首先,DeepSeek把Open AI的四环节模型直接减少为三环节,传统依赖人进行的“有监督微调”环节被DeepSeek放弃了,因为DeepSeek认为,机器学习不用依赖人类标注数据也能进行纯强化的学习,在放弃了“有监督微调”这个环节后,就突破了依赖人类标注数据,模型性能受限于标注者的认知水平和数据质量这个问题。

DeepSeek-R1-Zero通过纯强化学习训练,无需人工标注数据,直接通过环境反馈优化模型。这种方式允许模型通过自我探索和迭代,在数学推理、编程等任务中展现出超越人类标注数据的潜力。

说白了,Open AI的模型是需要人类这个“老师”,它做一道题人类老师“批改”一道,结果还不知道批改的对不对,可想而知这学习效率肯定不高。但是,DeepSeek不同,DeepSeek就像拿到了答案的机器,用远远高于人类批改的速度自己做题自己对答案,可想而知效率会提高多少,成本会降低多少。