ChatGPT

核心思想

虽然我们难以用规则刻画怎样的回答才算“没有偏见、基于客观事实、对用户有帮助”，但我们人类能够写出这样的回答，也能够判断两条回答中哪一条更优。
因此我们可以人工标注一批数据，训练一个打分模型（Reward Model）对我们的目标进行建模。打分模型可以对不同的回复进行打分：分值越高的回复，其质量越高，越满足我们的标准。
默认语言模型生成的回复，有的分高，有的分低。我们可以设法微调优化该模型（Reinforce Learning），使其生成的回复在打分模型里得分尽可能高。
上面的思想可以转化成如下具体步骤：

步骤	训练语料	训练目标	输入模型	输出模型
Step0	互联网语料	语言模型	-	GPT3
Step1	问题及人工撰写的标准回答	语言模型	GPT3	微调后的GPT3
Step2	人工对模型生成回复的排序	排序	微调后的GPT3	打分模型
Step3	模型自动生成	提升打分模型打分	微调后的GPT3	ChatGPT

训练数据

SFT数据集

SFT数据集是用来训练第1步有监督的模型，即使用采集的新数据，按照GPT-3的训练方式对GPT-3进行微调。因为GPT-3是一个基于提示学习的生成模型，因此SFT数据集也是由提示-答复对组成的样本。SFT数据一部分来自使用OpenAI的PlayGround的用户，另一部分来自OpenAI雇佣的40名标注工(labeler)。并且他们对labeler进行了培训。在这个数据集中，标注工的工作是根据内容自己编写指示，并且要求编写的指示满足下面三点：

简单任务：labeler给出任意一个简单的任务，同时要确保任务的多样性；
Few-shot任务：labeler给出一个指示，以及该指示的多个查询-相应对；
用户相关的：从接口中获取用例，然后让labeler根据这些用例编写指示。

示例：

RM数据集

RM数据集用来训练第2步的奖励模型，我们也需要为InstructGPT/ChatGPT的训练设置一个奖励目标。这个奖励目标不必可导，但是一定要尽可能全面且真实的对齐我们需要模型生成的内容。很自然的，我们可以通过人工标注的方式来提供这个奖励，通过人工对可以给那些涉及偏见的生成内容更低的分从而鼓励模型不去生成这些人类不喜欢的内容。InstructGPT/ChatGPT的做法是先让模型生成一批候选文本，让后通过labeler根据生成数据的质量对这些生成内容进行排序。

PPO数据集

InstructGPT的PPO数据没有进行标注，它均来自GPT-3的API的用户。不同用户提供的不同种类的生成任务，其中占比最高的包括生成任务(45.6%)，QA(12.4%)，头脑风暴(11.2%)，对话(8.4%)等。

训练任务

有监督微调（SFT）

这一步的训练和GPT-3一致，而且作者发现让模型适当过拟合有助于后面两步的训练。

奖励模型（RM）

因为训练RM的数据是一个labeler根据生成结果排序的形式，所以它可以看做一个回归模型。RM结构是将SFT训练后的模型的最后的嵌入层去掉后的模型。它的输入是prompt和Reponse，输出是奖励值（标量）。

具体的讲，对于每个prompt，InstructGPT/ChatGPT会随机生成 K个输出（ 4≤K≤9 ），然后它们向每个labeler成对的展示输出结果，也就是每个prompt共展示 $C_k^2$ 个结果，然后用户从中选择效果更好的输出。在训练时，InstructGPT/ChatGPT将每个prompt的 $C_k^2$ 个响应对作为一个batch，这种按prompt为batch的训练方式要比传统的按样本为batch的方式更不容易过拟合，因为这种方式每个prompt会且仅会输入到模型中一次。

奖励模型的损失函数如下表示：
$loss = -\frac{1}{C_{K}^{2}}E_{(x, y_w, y_l)\sim D}\left [ log(\sigma(r_\theta (w, y_w)-r_\theta (w, y_l))) \right ]$

损失函数的目标是最大化labeler更喜欢的响应和不喜欢的响应之间的差值。其中 $r_\theta(x, y)$ 是提示 $x$ 和响应 $y$ 在参数为 $\theta$ 的奖励模型下的奖励值， $y_w$ 是labeler更喜欢的响应结果， $y_l$ 是labeler不喜欢的响应结果。 $D$ 是整个训练数据集。

强化学习模型（PPO）

训练目的：以SFT为初始策略，基于RM对策略打分，使用强化学习优化策略，得到强化版本的模型PPO。

InstructGPT/ChatGPT通过结合人工标注，将强化学习引入到预训练语言模型是这个算法最大的创新点。
PPO的训练集完全来自API。它通过第2步得到的奖励模型来指导SFT模型的继续训练。很多时候强化学习是非常难训练的，InstructGPT/ChatGPT在训练过程中就遇到了两个问题：

问题1：随着模型的更新，强化学习模型产生的数据和训练奖励模型的数据的差异会越来越大。作者的解决方案是在损失函数中加入KL惩罚项（如下所示），来确保PPO模型的输出和SFT的输出差距不会很大。
$\beta log\left ( \pi _\phi ^{RL}(y|x)/\pi^{SFT}(y|x) \right )$
问题2：只用PPO模型进行训练的话，会导致模型在通用NLP任务上性能的大幅下降，作者的解决方案是在训练目标中加入了通用的语言模型目标（如下所示），这个变量在论文中被叫做PPO-ptx。
$\gamma E_{x\sim D_{pretrain}}\left [log( \pi _\phi ^{RL}(x)) \right ]$

综上，PPO的训练目标如下所示。
$objective(\phi )=E_{(x,y)\sim D_{\pi_\phi }^{RL}}\left [ r_\theta (x, y) - \beta log\left ( \pi _\phi ^{RL}(y|x)/\pi^{SFT}(y|x) \right )\right] + \gamma E_{x\sim D_{pretrain}}\left [log( \pi _\phi ^{RL}(x)) \right ]$

其中：

$r(x, y)$ 即为奖励模型对（x, y）的打分。奖励模型在本阶段的训练中参数冻结。
$\pi_{\phi}^{\textrm{RL}}$ 称为策略模型，包含可训练的模型参数 $\phi$ ，从微调后的GPT3中初始化得到。
$\pi^{\textrm{SFT}}$ 为微调后的GPT3模型，它在本阶段的训练中参数冻结。
$\mathrm{KL}\Big(\pi^{RL}_{\phi}, \pi^{SFT}\Big)$ 为两个模型在相同输入的情况下生成的句子结果的分布的差异，以KL散度为度量