谷歌推出 Gemini 2.0 Flash Thinking：重新定义 AI 推理能力

278次阅读

谷歌最近发布了 Gemini 2.0 Flash Thinking，这是一款多模态推理模型，旨在以更快的速度和更高的透明度解决复杂问题。在社交网络 X 上，谷歌首席执行官 Sundar Pichai 写道：“这是我们迄今为止最具思考能力的模型：）”。

与之前的版本相比，Gemini 2.0 Flash Thinking 在推理能力方面有了显著提升。该模型支持 32,000 个输入令牌（约 50-60 页文本），并可以生成 8,000 个令牌的输出响应。在谷歌 AI Studio 的侧面板中，该公司声称它最适合“多模态理解、推理”和“编码”。

与竞争对手 OpenAI 的 o1 和 o1 mini 推理模型不同，Gemini 2.0 使用户能够通过下拉菜单访问其逐步推理过程，从而更清楚、更透明地了解模型如何得出结论。通过允许用户查看决策是如何做出的，Gemini 2.0 解决了长期以来关于 AI 作为“黑匣子”运行的担忧，并使该模型（许可条款仍不清楚）与竞争对手推出的其他开源模型持平。

我对该模型的早期简单测试表明，它能够正确且快速地（在 1 到 3 秒内）回答一些其他 AI 模型一直难以解决的问题，例如计算“草莓”一词中“R”的数量。在另一项测试中，当比较两个十进制数（9.9 和 9.11）时，该模型系统地将问题分解为更小的步骤，从分析整数到比较小数位。

这些结果得到了独立第三方分析机构 LM Arena 的支持，该机构将 Gemini 2.0 Flash Thinking 评为所有 LLM 类别中表现最好的模型。

Gemini 2.0 Flash Thinking 还具有原生支持图像上传和分析的功能，这是竞争对手 OpenAI 的 o1 系列所不具备的。o1 最初是作为纯文本模型推出的，但后来扩展到包括图像和文件上传分析。目前，这两个模型都只能返回文本。

Gemini 2.0 Flash Thinking 的多模态功能扩展了其潜在的用例，使其能够处理结合了不同类型数据的场景。例如，在一项测试中，该模型解决了一个需要分析文本和视觉元素的谜题，展示了其在跨格式集成和推理方面的多功能性。

开发人员可以通过谷歌 AI Studio 和 Vertex AI 利用这些功能，在那里可以对该模型进行实验。随着 AI 领域的竞争日益激烈，Gemini 2.0 Flash Thinking 可能标志着解决问题模型新时代的开始。它处理多种数据类型、提供可见推理和大规模性能的能力使其成为推理 AI 市场中的有力竞争者，与 OpenAI 的 o1 系列及其他产品竞争。