荷兰初创公司Send AI宣布获得Google的Gradient Ventures支持,旨在帮助企业从大量复杂文档中提取数据,确保准确性和安全性。
Send AI致力于挑战文档处理领域的现有巨头,如UiPath、Abbyy、Rossum和Kofax,提供了一个可定制的平台,使企业能够为其独特的数据提取需求微调AI模型。
在高度监管的保险等行业运营的公司可能需要处理各种格式的文档,从PDF和纸质文件到以各种方向和背景“噪音”拍摄的智能手机照片。这些非标准的“非结构化”数据类型即使对人类来说也可能很难解析,但完全依赖机器的方法可能导致错误的索赔拒绝或偿还以及后续的行政问题。
典型的现成文档处理软件通常设计用于与多个行业交叉的更常见文档类型,使其不适用于某些用例。而通过Send AI,公司可以训练计算机视觉模型识别特定文档,使用单独的语言模型提取和验证相关数据。如果有任何疑问,人员可以通过Web界面控制和审查每个步骤。
Send AI的创始人兼首席执行官Thom Trentelman告诉TechCrunch:“这种验证可以简单到检查预期数字是否确实是数字,或者到在数据库中查找注册号码是否有匹配项。”他补充道:“任何不确定性都将提交进行人工审查。”
Send AI成立于2021年,最初名为Autopilot,此前曾从一位大学毕业生校友基金中获得了一笔小额10万美元的投资。随着业务的扩大,它目前刚刚完成了一轮220万欧元(240万美元)的Pre-Seed融资,由Google的Gradient Ventures和Keen Venture Partners共同领投,还有来自DeepMind等公司的天使投资者的参与。
技术运作
公司可以通过API访问Send AI的基于云的软件,通过电子邮件发送的文档流入系统。收到文档后,Send AI会通过视觉增强文档,然后将其发送到语言模型进行分类和提取。
在目标市场方面,Trentelman表示公司主要瞄准大型企业,因为它们“最困扰于文件处理”,尽管事实上任何处理大量文档的业务都可能会找到这项技术的用途。
值得注意的是,除了市场上已经存在的文档处理工具之外,Send AI还面临着一批基于强大新型大语言模型(LLM)构建的服务的新兴初创公司的竞争,比如OpenAI使用GPT-X(支持ChatGPT)。尽管Trentelman承认这类产品在需要“主观好”评分的情况下效果良好,比如摘要或回答问题,但在需要对大量文档进行高度准确性的情况下,情况就不同了。
Trentelman表示:“在这些技术中,您很快就会遇到瓶颈,大型通用LLM仍然不可预测、缓慢且昂贵。”他说:“在Send AI,我们让客户构建他们自己的解决方案。”
Send AI的内部机制基于较小的、开源的模型,客户首先通过手动处理一小部分文档对其进行训练,然后对新文档进行反复处理,人员在旁提供更正。
在定价方面,Send AI采用基于积分的基础收费方式,客户根据处理步骤付费。“这样,我们可以区分处理50页PDF或只是单一文本片段的费用,”Trentelman表示。“我们的模型便宜、快速且可靠,因此我们可以按客户进行部署。这样,客户对其数据和性能有更多控制,这就是为什么我们在健康保险和政府等受监管行业表现良好的原因。”
数据控制
Send AI声称其技术将吸引高度受监管的行业,因为它为客户提供了对其数据的控制,尽管这似乎与其基于云的特性相矛盾。然而,Trentelman指出,典型的来自OpenAI等公司的LLM是如何工作的,以及它可能将来自多个不同客户的训练数据混合到一个模型中,这增加了敏感数据泄漏的风险。这正是为什么我们看到一系列承诺在基于LLM的软件中保护私人数据的初创公司崛起的原因。
Send AI试图通过为每个客户部署小型、独立的开源变压器模型来解决此类担忧。
Trentelman说:“我们使用各种模型来完成工作——开箱即用它们并不令人印象深刻,但一旦在高质量数据上训练,它们就变得强大而精确。”而虽然模型和相关的训练数据仍然存储在Send AI的云上,但使用独立模型意味着它可以精确定位数据的存储位置,从而在请求时进行删除。据Trentelman称,这足以使其成为其他提供商的“首选候选人”,并且在某种程度上说服了注重数据隐私的公司,本地部署不是唯一的选择。
“如今,更多受监管的公司允许供应商使用公共云,只要它们符合一份详尽的法规清单,”Trentelman说。“最初,我们总是被问及是否可以部署在本地,但最终只有一家公司选择了我们的公共云服务。”
目前,Send AI处于私有测试阶段,尽管它已经宣称拥有一些令人瞩目的客户,包括保险巨头Axa。作为一个现有团队,公司计划利用新注资,在全面商业化推出之前,在未来一年中将其员工数量翻一番。