Claude 2：强化性能、提升安全性的人工智能助手

Anthropic PBC公司近日宣布推出Claude 2，这是他们的全新模型。Claude 2在性能上进行了改进，响应更加详尽，并可通过API访问，同时还推出了新的公开测试网站claude.ai。用户反馈显示，Claude 2易于对话，能清晰解释其思考过程，且生成有害输出的可能性较小，且记忆力更强。

与先前的模型相比，Claude 2在编码、数学和推理方面进行了改进。例如，最新模型在法律考试的选择题部分得分为76.5%，而Claude 1.3仅为73.0%。与申请研究生的大学生相比，Claude 2在GRE阅读和写作考试中的分数超过了90%的申请者，而在定量推理考试中与中位数申请者相当。

将Claude视为友好、热情的同事或个人助理，可以用自然语言指示它帮助您完成许多任务。企业用户可以使用与Claude 1.3相同的价格获取Claude 2 API。此外，美国和英国的任何人都可以立即开始使用我们的测试聊天功能。

为了改进模型的性能和安全性，我们增加了Claude的输入和输出长度。用户每次输入可达100,000个标记，这意味着Claude可以处理数百页的技术文档甚至一本书。Claude现在还可以一次性编写更长的文档，从备忘录到信件再到数千个标记的故事。

Claude 2在编码能力方面有了显著提升，通过Python编码测试的Codex HumanEval，Claude 2的得分从56.0%提高到了71.2%。在GSM8k的大量小学数学问题集中，Claude 2的得分从85.2%提高到了88.0%。

Anthropic PBC公司已经制定了Claude 2的功能改进计划，并将在未来几个月内逐步部署。为了提高Claude 2的安全性，我们进行了内部红队评估，针对一组有害提示对我们的模型进行评分，同时还定期进行手动检查。在这次评估中，与Claude 1.3相比，Claude 2在给出无害回答方面的表现提高了2倍。尽管没有模型是免疫的，但我们采用了各种安全技术和广泛的红队测试来改善其输出。