OpenAI 推出 o1 模型及 API 更新，助力开发者构建更先进的 AI 应用

在以节日为主题的产品发布活动“12 天 OpenAI”的第九天，OpenAI 正在通过其应用程序编程接口（API）向第三方开发者推出其最先进的模型 o1。这对希望构建新的先进 AI 应用程序或将最先进的 OpenAI 技术集成到其现有应用程序和工作流程中的开发者来说是一个重要的进步，无论是面向企业还是消费者。

如果你还不熟悉 OpenAI 的 o1 系列，这里有一个概述：它于 2024 年 9 月宣布，是 ChatGPT 公司新“系列”模型中的第一个，超越了 GPT 系列的大型语言模型（LLM），提供了“推理”能力。

基本上，o1 系列模型——o1 和 o1 mini——需要更长的时间来响应用户的提示并给出答案，但在形成答案时会检查自己是否正确并避免幻觉。当时，OpenAI 表示 o1 可以处理更复杂的、博士级别的问题——这也被现实世界的用户所证实。

虽然开发者之前可以通过预览版本的 o1 构建自己的应用程序——例如，博士顾问或实验室助手——但通过 API 发布的完整 o1 模型的生产就绪版本带来了改进的性能、更低的延迟和新的功能，使其更容易集成到现实世界的应用程序中。

大约两周半前，OpenAI 已经通过其 ChatGPT Plus 和 Pro 计划向消费者提供了 o1，并增加了模型分析和响应用户上传的图像和文件的能力。

随着今天的发布，OpenAI 宣布对其实时 API 进行重大更新，同时降低价格并推出一种新的微调方法，使开发者对其模型有更大的控制权。

新的 o1 模型，名为 o1-2024-12-17，旨在擅长复杂的、多步骤的推理任务。与早期的 o1-preview 版本相比，此版本提高了准确性、效率和灵活性。

OpenAI 报告称，在一系列基准测试中，包括编码、数学和视觉推理任务，都取得了显著的收益。例如，SWE-bench Verified 上的编码结果从 41.3 增加到 48.9，而在数学重点的 AIME 测试中的性能从 42 跃升至 79.2。这些改进使 o1 非常适合构建工具，以简化客户支持、优化物流或解决具有挑战性的分析问题。

几个新功能增强了 o1 对开发者的功能。结构化输出允许响应可靠地匹配自定义格式，如 JSON 模式，确保与外部系统交互时的一致性。函数调用简化了将 o1 连接到 API 和数据库的过程。并且对视觉输入进行推理的能力开辟了制造、科学和编码等领域的用例。

开发人员还可以使用新的 reasoning_effort 参数微调 o1 的行为，该参数控制模型在任务上花费的时间，以平衡性能和响应时间。

OpenAI 还宣布对其实时 API 进行更新，旨在为低延迟、自然的对话体验提供支持，如语音助手、实时翻译工具或虚拟导师。

新的 WebRTC 集成通过直接支持音频流、噪声抑制和拥塞控制，简化了构建基于语音的应用程序的过程。开发人员现在可以在最小的设置下集成实时功能，即使在可变的网络条件下也是如此。

OpenAI 还为其实时 API 推出了新的定价，将 GPT-4o 音频的成本降低了 60%，降至每 100 万个输入令牌 40 美元，每 100 万个输出令牌 80 美元。

缓存的音频输入成本降低了 87.5%，现在的价格为每 100 万个输入令牌 2.50 美元。为了进一步提高可负担性，OpenAI 增加了 GPT-4o mini，这是一个更小、更具成本效益的模型，价格为每 100 万个输入令牌 10 美元，每 100 万个输出令牌 20 美元。

GPT-4o mini 的文本令牌费率也显著降低，输入令牌的起价为 0.60 美元，输出令牌的起价为 2.40 美元。

除了定价，OpenAI 还为开发人员在实时 API 中的响应提供了更多的控制。并发带外响应等功能允许后台任务（如内容审核）在不中断用户体验的情况下运行。开发人员还可以自定义输入上下文，以专注于对话的特定部分，并控制何时触发语音响应，以实现更准确和无缝的交互。

另一个主要的新增功能是偏好微调，这是一种基于用户和开发人员偏好定制模型的方法。

与依赖于精确输入输出对的监督微调不同，偏好微调使用成对比较来教导模型哪些响应是首选的。这种方法对于主观任务特别有效，例如总结、创意写作或语气和风格重要的场景。

与合作伙伴（如为金融分析师构建助手的 Rogo AI）的早期测试显示出了有希望的结果。Rogo 报告说，偏好微调帮助他们的模型比传统微调更好地处理复杂的、分布外的查询，任务准确性提高了 5%以上。该功能现已适用于 gpt-4o-2024-08-06 和 gpt-4o-mini-2024-07-18，并计划在明年初扩展到更新的模型。

为了简化集成，OpenAI 正在通过 beta 版本扩展其官方 SDK 产品，包括 Go 和 Java。这些 SDK 加入了现有的 Python、Node.js 和.NET 库，使开发人员在更多编程环境中更容易与 OpenAI 的模型进行交互。Go SDK 对于构建可扩展的后端系统特别有用，而 Java SDK 则针对依赖于强类型和强大生态系统的企业级应用程序进行了定制。

通过这些更新，OpenAI 为开发人员提供了一个扩展的工具包，用于构建先进的、可定制的 AI 驱动的应用程序。无论是通过 o1 的改进推理能力、实时 API 增强还是微调选项，OpenAI 的最新产品都旨在为推动 AI 集成边界的企业提供更高的性能和成本效益。