$("body").append("")

Diffbot 发布新 AI 模型,以知识图谱提高事实准确性

9次阅读
没有评论

Diffbot 发布新 AI 模型,以知识图谱提高事实准确性
Diffbot 发布新 AI 模型,解决事实准确性挑战
Diffbot,一家以维护世界上最大的网络知识索引之一而闻名的硅谷小公司,今天宣布发布一种新的 AI 模型,该模型有望解决该领域最大的挑战之一:事实准确性。

Graph Retrieval-Augmented Generation 系统
这个新模型是 Meta 的 LLama 3.3 的微调版本,是第一个被称为 Graph Retrieval-Augmented Generation(GraphRAG)系统的开源实现。

与仅依赖大量预加载训练数据的传统 AI 模型不同,Diffbot 的 LLM 利用来自公司知识图谱的实时信息,该知识图谱是一个不断更新的数据库,包含超过一万亿个相互关联的事实。

知识图谱的工作原理
Diffbot 的知识图谱是一个庞大的自动化数据库,自 2016 年以来一直在爬取公共网络。它将网页分类为人员、公司、产品和文章等实体,使用计算机视觉和自然语言处理的组合提取结构化信息。

每隔四到五天,知识图谱就会刷新数百万个新事实,以确保其保持最新状态。Diffbot 的 AI 模型通过实时查询图形来利用此资源检索信息,而不是依赖于其训练数据中编码的静态知识。

与传统 AI 相比,Diffbot 的知识图谱在查找事实方面的优势
在基准测试中,Diffbot 的方法似乎取得了成效。该公司报告称,其模型在 FreshQA 上获得了 81%的准确性得分,这是一个由 Google 创建的用于测试实时事实知识的基准,超过了 ChatGPT 和 Gemini。它还在 MMLU-Pro 上获得了 70.36%的分数,这是一个更困难的学术知识标准测试版本。

也许最重要的是,Diffbot 正在使其模型完全开源,允许公司在自己的硬件上运行它并根据自己的需要进行定制。这解决了与主要 AI 提供商的数据隐私和供应商锁定有关的日益增长的担忧。

开源 AI 对企业处理敏感数据的影响
此次发布正值 AI 发展的关键时刻。最近几个月,大型语言模型产生“幻觉”或生成虚假信息的趋势受到了越来越多的批评,即使公司继续扩大模型规模。Diffbot 的方法提出了一种替代的前进方向 - 一种专注于将 AI 系统建立在可验证的事实基础上,而不是试图在神经网络中编码所有人类知识。

行业专家指出,Diffbot 基于知识图谱的方法对于准确性和可审计性至关重要的企业应用可能特别有价值。该公司已经为包括 Cisco,DuckDuckGo 和 Snapchat 在内的主要公司提供数据服务。

该模型可立即通过 GitHub 上的开源版本获得,并可通过 diffy.chat 上的公共演示进行测试。对于希望在内部部署它的组织,Diffbot 表示较小的 80 亿参数版本可以在单个 Nvidia A100 GPU 上运行,而完整的 700 亿参数版本需要两个 H100 GPU。

AI 的未来在于更好地组织和访问人类知识
展望未来,Tung 认为 AI 的未来不在于更大的模型,而在于更好地组织和访问人类知识:“事实会过时。很多这些事实将被转移到明确的地方,你可以在那里实际修改知识,并且可以有数据来源。”

随着 AI 行业努力应对事实准确性和透明度方面的挑战,Diffbot 的发布为占主导地位的越大越好的范式提供了一个引人注目的替代方案。它是否成功地改变了该领域的方向还有待观察,但它肯定已经证明,在 AI 方面,大小并不是一切。

正文完
 
评论(没有评论)