谷歌最近发布了 Gemini 2.0 Flash Thinking,这是一款多模态推理模型,旨在以更快的速度和更高的透明度解决复杂问题。在社交网络 X 上,谷歌首席执行官 Sundar Pichai 写道:“这是我们迄今为止最具思考能力的模型:)”。 与之前的版本相比,Gemini 2.0 Flash Thinking 在推理能力方面有了显著提升。该模型支持 32,000 个输入令牌(约 50-60 页文本),并可以生成 8,000 个令牌的输出响应。在谷歌 AI Studio 的侧面板中,该公司声称它最适合“多模态理解、推理”和“编码”。 与竞争对手 OpenAI 的 o1 和 o1 mini 推理模型不同,Gemini 2.0 使用户能够通过下拉菜单访问其逐步推理过程,从而更清楚、更透明地了解模型如何得出结论。通过允许用户查看决策是如何做出的,Gemini 2.0 解决了长期以来关于 AI 作为“黑匣子”运行的担忧,并使该模型(许可条款仍不清楚)与竞争对手推出的其他开源模型持平。 我对该模型的早期简单测试表明,它能够正确且快速地(在 1 到 3 秒内)回答一些其他 AI 模型一直难以解决的问题,例如计算“草莓”一词中“R”的数量。在另一项测试中,当比较两个十进制数(9.9 和 9.11)时,该模型系统地将问题分解为更小的步骤,从分析整数到比较小数位。 这些结果得到了独立第三方分析机构 LM Arena 的支持,该机构将 Gemini 2.0 Flash Thinking 评为所有 LLM 类别中表现最好的模型。 Gemini 2.0 Flash Thinking 还具有原生支持图像上传和分析的功能,这是竞争对手 OpenAI 的 o1 系列所不具备的。o1 最初是作为纯文本模型推出的,但后来扩展到包括图像和文件上传分析。目前,这两个模型都只能返回文本。 Gemini 2.0 Flash Thinking 的多模态功能扩展了其潜在的用例,使其能够处理结合了不同类型数据的场景。例如,在一项测试中,该模型解决了一个需要分析文本和视觉元素的谜题,展示了其在跨格式集成和推理方面的多功能性。 开发人员可以通过谷歌 AI Studio 和 Vertex AI 利用这些功能,在那里可以对该模型进行实验。随着 AI 领域的竞争日益激烈,Gemini 2.0 Flash Thinking 可能标志着解决问题模型新时代的开始。它处理多种数据类型、提供可见推理和大规模性能的能力使其成为推理 AI 市场中的有力竞争者,与 OpenAI 的 o1 系列及其他产品竞争。