Anthropic PBC公司近日宣布推出Claude 2,这是他们的全新模型。Claude 2在性能上进行了改进,响应更加详尽,并可通过API访问,同时还推出了新的公开测试网站claude.ai。用户反馈显示,Claude 2易于对话,能清晰解释其思考过程,且生成有害输出的可能性较小,且记忆力更强。
与先前的模型相比,Claude 2在编码、数学和推理方面进行了改进。例如,最新模型在法律考试的选择题部分得分为76.5%,而Claude 1.3仅为73.0%。与申请研究生的大学生相比,Claude 2在GRE阅读和写作考试中的分数超过了90%的申请者,而在定量推理考试中与中位数申请者相当。
将Claude视为友好、热情的同事或个人助理,可以用自然语言指示它帮助您完成许多任务。企业用户可以使用与Claude 1.3相同的价格获取Claude 2 API。此外,美国和英国的任何人都可以立即开始使用我们的测试聊天功能。
为了改进模型的性能和安全性,我们增加了Claude的输入和输出长度。用户每次输入可达100,000个标记,这意味着Claude可以处理数百页的技术文档甚至一本书。Claude现在还可以一次性编写更长的文档,从备忘录到信件再到数千个标记的故事。
Claude 2在编码能力方面有了显著提升,通过Python编码测试的Codex HumanEval,Claude 2的得分从56.0%提高到了71.2%。在GSM8k的大量小学数学问题集中,Claude 2的得分从85.2%提高到了88.0%。
Anthropic PBC公司已经制定了Claude 2的功能改进计划,并将在未来几个月内逐步部署。为了提高Claude 2的安全性,我们进行了内部红队评估,针对一组有害提示对我们的模型进行评分,同时还定期进行手动检查。在这次评估中,与Claude 1.3相比,Claude 2在给出无害回答方面的表现提高了2倍。尽管没有模型是免疫的,但我们采用了各种安全技术和广泛的红队测试来改善其输出。