货物

GPT4 vs ChatGPT：我们分析训练方法、性能、能力和局限性

新的生成语言模型有望彻底改变整个行业，包括媒体、教育、法律和技术。

最近几个月，创新的大型语言模型的发布速度令人震惊。在本文中，我们将介绍 GPT4 与 ChatGPT 之间的主要异同，包括训练方法、性能、能力和局限性。

内容索引

GPT4 对比 ChatGPT: 训练方法的异同

GPT4 和 ChatGPT 建立在旧版 GPT 模型的基础上，改进了模型架构，采用了更复杂的训练方法，并具有更多的训练参数。

两种设计都基于 transformer 架构，它使用编码器处理输入序列，使用解码器生成输出序列。编码器和解码器通过一种机制连接，允许解码器更密切地关注最重要的输入序列。

GPT4技术报告 OpenAI 对模型架构和 GPT4 形成过程的见解很少，引用了“competitive landscape and the safety implications of large-scale models“。我们所知道的是，GPT4 和 ChatGPT 的训练方式可能相似，这与 GPT-2 和 GPT-3 所用的训练方法大不相同。我们比 GPT4 更了解 ChatGPT 的训练方法，所以我们将从那里开始。

ChatGPT

ChatGPT 使用对话数据集进行训练，包括演示数据，其中人工注释者演示聊天机器人助手响应特定请求的预期输出。此数据用于通过监督学习调整 GPT3.5，生成策略模型，用于在提供请求时生成多个响应。然后人工注释者对给定提示的哪些响应产生最佳结果进行分类，用于训练奖励模型。然后使用奖励模型通过强化学习迭代地微调策略模型。

ChatGPT 使用从人类反馈中强化学习 (RLHF)，一种在训练过程中结合人类反馈来改进语言模型的方法。这允许模型输出与用户请求的活动保持一致，而不是仅仅根据通用训练数据（例如 GPT-3）预测句子中的下一个词。

GPT4

OpenAI 尚未透露其如何训练 GPT4 的细节。他们的技术报告不包括“details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar“。我们所知道的是，GPT4 是一种训练有素的 transformer 式生成多模模型。基于公开可用的数据和第三方数据，这些数据已获得许可并随后使用 RLHF 进行微调. 有趣的是，OpenAI 分享了有关其更新的 RLHF 技术的详细信息，以使模型响应更加准确，并且不太可能漂移到安全护栏之外。

在训练策略模型（与 ChatGPT 一样）后，RLHF 用于对抗性训练，这是一种在恶意示例上训练模型的过程，旨在诱使模型在未来防御此类示例。就 GPT4 而言，专家们评估了政治模型对相互矛盾的要求的反应。然后使用这些响应来训练额外的奖励模型，这些模型迭代地改进策略模型，从而产生不太可能提供危险、回避或不准确响应的模型。

GPT4 vs ChatGPT 在性能和功能方面的异同

容量

在功能方面，ChatGPT 和 GPT4 相似多于不同。与其前身一样，GPT-4 也以旨在与用户保持一致的对话方式进行交互。正如您在下面看到的，对于一个广泛问题，两个模型之间的答案非常相似。

OpenAI 同意模型之间的区别可能很微妙，并指出“当任务的复杂性达到足够的阈值时，差异就会出现”。考虑到 GPT4 基础模型在训练后阶段经历了六个月的对抗训练，这可能是一个准确的表征。

与仅接受文本的 ChatGPT 不同，GPT4 接受图像和文本提示，返回文本响应。不幸的是，在撰写本文时，使用图像输入的能力尚未公开。

性能

如上所述，与 GPT-4（ChatGPT 从中调整）相比，OpenAI 报告称 GPT3.5 的安全性能有了显着提高。但是，目前尚不清楚是否：

减少对禁止内容请求的响应，
减少有毒物质的产生
改善对敏感话题的回应

是由于 GPT4 模型本身或其他相互矛盾的测试。

此外，在大多数人工学术和专业考试中，GPT4 的表现优于 CPT-3.5。值得注意的是，与 GPT-4 相比，GPT90 在 Uniform Bar 考试中得分第 3.5 个百分位，后者得分第 10 个百分位。 GPT4 在传统语言模型基准测试和其他 SOTA 模型上也明显优于其前身（尽管有时略胜一筹）。

GPT4 与 ChatGPT：差异和局限性i

ChatGPT 和 GPT4 都有很大的局限性和风险。 GPT-4 系统表包含来自 OpenAI 对这些风险的详细探索的见解。

这些只是与这两种模型相关的一些风险：

幻觉（倾向于产生无意义或事实不准确的内容）
制作违反 OpenAI 政策的有害内容（例如仇恨言论、煽动暴力）
扩大和延续对边缘化人群的刻板印象
生成旨在欺骗的现实虚假信息

虽然 ChatGPT 和 GPT-4 面临着相同的限制和风险，但 OpenAI 做出了特别的努力，包括许多相互矛盾的测试，以减轻 GPT-4 的限制和风险。虽然这令人鼓舞，但 GPT-4 系统表最终证明了 ChatGPT 是多么脆弱（也许现在仍然如此）。有关有害意外后果的更详细解释，我建议阅读 GPT-4 系统表，该表从第 38 页开始 GPT-4技术报告 .