Daily Productive Sharing 674 - How OpenAI Built GPT Models?

OpenAI 在这篇文章中用通俗易懂的语言介绍了他们如何构建 ChatGPT 的底层模型:
1 首先他们让标注者回答一些问题,把这些问题和回答拿去迭代 GPT-3 模型;
2 然后他们让模型给一个问题生成若干答案,让标注者给这些答案打分。利用这些数据, 他们训练了一个 reward 模型;
3 然后他们让第一步迭代后的模型根据问题生成新的答案,然后利用第二步中的 reward 模型进行打分。也就是两个模型形成了对抗,用强化学习进一步迭代第一步中的模型。

https://letters.acacess.com/daily-productive-sharing-674/ Daily Productive Sharing 674 - How OpenAI Built GPT Models?
 
 
Back to Top