ChatGPT最强竞品Claude2：全面升级，挑战GPT-4

AI与情感2yrs ago (2024)update lida

188 0 0

文章主题：以下是文章的关键词：

ChatGPT, Claude, AI系统, 版本更新

666ChatGPT办公新姿势，助力做AI时代先行者！

ChatGPT最强竞品Claude2来了：代码、GRE成绩超越GPT-4，免费可用

机器之心报道

编辑：小舟、杜伟

此次，Claude 2 除了一大波能力上的升级，更重要的是大家都可以用了。

今天，备受众多网友誉为“ChatGPT最强大竞争对手”的人工智能系统Claude，正式推出了全新版本。

Claude 2 正式发布！

据介绍，Claude 2 在编写代码、分析文本、数学推理等方面的能力得到加强，并且可以产生更长的响应。

更重要的是，用户可以在新的 beta 网站上免费试用，并且 Claude 2 商用 API 的价格与 1.3 版本相同。

ChatGPT最强竞品Claude2：全面升级，挑战GPT-4

在我们之前的报道中，我们已经多次为您介绍了Claude这个项目，它由Anthropic公司创立，由OpenAI的前员工创立。在ChatGPT发布仅仅两个月之后，Claude便迅速面世，能够完成包括摘要概括、关键词检索、创作辅助、智能问答以及编程等多元化的任务。

在接下来的时间里，我们不断优化并升级了我们的产品。在五月份，通过对100K Context Windows的运用，我们将Claude的上下文窗口从9K Token扩展到了100K，这标志着我们在技术上的重大突破。

现在，我们终于迎来了期待已久的重大版本更新。Anthropic 方面透露，Claude 2 的改进是基于之前从用户处收集的反馈意见而进行的。

接下来看各方面能力细节。

Claude 2 在哪些方面得到了加强？

总的来说，Claude 2 注重提高以下能力：

Anthropic 致力于提高 Claude 作为编码助理的能力，Claude 2 在编码基准和人类反馈评估方面性能显著提升。
长上下文（long-context）模型对于处理长文档、少量 prompt 以及使用复杂指令和规范进行控制特别有用。Claude 的上下文窗口从 9K token 扩展到了 100K token（Claude 2 已经扩展到 200K token，但目前发布版本仅支持 100K token）。
以前的模型经过训练可以编写相当短的回答，但许多用户要求更长的输出。Claude 2 经过训练，可以生成最多 4000 个 token 的连贯文档，相当于大约 3000 个单词。
Claude 通常用于将长而复杂的自然语言文档转换为结构化数据格式。Claude 2 经过训练，可以更好地生成 JSON、XML、YAML、代码和 Markdown 格式的正确输出。
虽然 Claude 的训练数据仍然主要是英语，但 Claude 2 的训练数据中非英语数据比例已经明显增加。
Claude 2 的训练数据包括 2022 年和 2023 年初更新的数据。这意味着它知道最近发生的事件，但它仍然可能会产生混淆。

该研究进行了一系列评估实验来测试 Claude 2 的性能水平，包括对齐评估和能力评估两部分。

这项研究在模型对齐领域，对大型模型的三大核心需求进行了深入分析与评价。这三大需求分别是：遵循指令的准确性、生成内容的实用性和无害性，以及生成内容的准确性和真实性。

人类反馈评估

在生成过程中，大模型应遵循人类所给出的指示，以确保生成的结果满足特定需求并具有实用性。为了验证这一观点，一项研究对Claude 2、Claude 1.3以及Claude Instant 1.1进行了实验评估。评估过程中，研究者采用了经典的对弈水平评估指标——Elo分数。具体而言，各个模型的评估结果已在图1中呈现。

ChatGPT最强竞品Claude2：全面升级，挑战GPT-4

偏见评估

Bias Benchmark for QA（BBQ）是用于评估模型对人群偏见的常用基准。该研究在 BBQ 基准上进行实验评估，几种模型的实验结果如下图 2 所示：

ChatGPT最强竞品Claude2：全面升级，挑战GPT-4

下图 3 显示了在消除歧义的语境下几种模型回答 BBQ 基准中问题的准确性。值得注意的是，Claude 模型的准确率会比 Helpful-Only 模型低是因为模型会拒绝回答一些存在偏见的问题。

ChatGPT最强竞品Claude2：全面升级，挑战GPT-4

事实性评估

大模型有时会生成虚假混乱的信息，因此测试模型生成内容的事实性非常重要。TruthfulQA 是一个用于评估语言模型在对抗性环境中输出的准确性和真实性的基准，几种模型的测试结果如下图 4 所示：

ChatGPT最强竞品Claude2：全面升级，挑战GPT-4

总的来说，Claude 2 在 HHH（在有用性（helpfulness）、无害性（harmlessness）、事实性（honesty）、）评估上的总体表现如下图 6 所示：

ChatGPT最强竞品Claude2：全面升级，挑战GPT-4

在能力评估方面，该研究针对多语言翻译任务、上下文窗口、标准基准评估、资格水平考试几个方面对 Claude 2 展开评估实验。

多语言翻译

该研究选择涵盖 200 多种语言的翻译基准 Flores 200 来评估 Claude 2 的多语言翻译能力，其中包括低资源语言。Claude 2、Claude 1.3 和 Claude Instant 1.1 的评估结果如下图 7 所示：

ChatGPT最强竞品Claude2：全面升级，挑战GPT-4

上下文窗口

今年早些时候，研究团队将 Claude 的上下文窗口从 9K token 扩展到了 100K token，现在 Claude 2 进一步扩展了上下文窗口，达到 200K token，相当于约 150000 个单词。

为了证明 Claude 2 会实际使用完整的上下文，该研究测量了每个 token 位置的损失，平均超过 1000 个长文档，如下图 8 所示：

ChatGPT最强竞品Claude2：全面升级，挑战GPT-4

不过，研究团队表示目前发布的版本仅支持 100K token 的上下文窗口，完整的上下文窗口将会集成到他们的产品中。

标准基准评估

该研究在几个标准基准上评估测试了 Claude 2、Claude Instant 1.1 和 Claude 1.3，包括用于 python 函数合成的 Codex HumanEval、用于解决小学数学问题的 GSM8k、用于多学科问答的 MMLU、针对长故事问答的 QuALITY、用于科学问题的 ARC-Challenge、用于阅读理解的 TriviaQA 和用于中学水平阅读理解与推理的 RACE-H，具体的评估结果如下表所示：

ChatGPT最强竞品Claude2：全面升级，挑战GPT-4

值得注意的是，Claude 2 生成代码的能力有了明显的提升，在 Codex HumanEval 上的得分从 56% 上升到 71.2%。

资格水平考试

该研究还用几个常见资格水平考试的题目测试了 Claude 2 的实际能力。

首先，Claude 2 在美国律师资格考试（Bar Exam）的多项选择题测试中得分率为 76.5%，高于 Claude 1.3 的 73.0%。

ChatGPT最强竞品Claude2：全面升级，挑战GPT-4

其次，研究团队还用美国研究生入学考试（GRE）测试了 Claude 2 的能力水平，Claude 2 在 GRE 阅读和写作考试中的得分高于 90%，在定量推理方面与达到了参加 GRE 考试的考生的中位数水平。

ChatGPT最强竞品Claude2：全面升级，挑战GPT-4

最后，该研究还在美国医师执照考试（USMLE）题目上测试了 Claude 2：

ChatGPT最强竞品Claude2：全面升级，挑战GPT-4

Anthropic 表示，人工智能写作平台 Jasper 和代码导航工具 Sourcegraph 等公司已开始将 Claude 2 纳入其运营中。

官方示例及试用体验