数据智能公司DatologyAI正在开发技术自动筛选AI训练数据集

1,108次阅读

概要：数据集的质量对于强大的AI模型至关重要，然而，大规模的训练数据集往往也是这些模型的软肋。在这些庞大的数据集中隐藏着偏见，比如在图像分类集中大多是白人CEO的照片。此外，大规模数据集可能会很混乱，采用的格式让模型难以理解，包含了大量的噪音和无关信息。数据准备方面的挑战是许多公司采用AI时面临的主要问题之一。

Ari Morcos，一位在AI行业工作了近十年的人士，希望能够简化围绕AI模型训练的许多数据准备过程，并创立了一家初创公司来实现这一目标。Morcos的公司DatologyAI正在构建工具，自动筛选诸如用于训练OpenAI的ChatGPT、Google的Gemini以及其他类似GenAI模型的数据集。这一平台可以根据模型的应用（例如编写电子邮件）识别出最重要的数据，还可以确定应如何通过添加额外数据来扩充数据集，以及在模型训练期间如何进行批处理或将其分成更易管理的块。

Morcos认为，训练数据集的组成影响着模型的几乎所有特征，从模型在任务上的表现到其大小和领域知识的深度。更高效的数据集可以缩短训练时间并产生较小的模型，节省计算成本，而包含特别多样化样本的数据集可以更灵活地处理特殊请求。在对GenAI的兴趣达到空前高峰的今天，AI实施成本成为执行人员关注的焦点。

许多企业选择微调现有模型（包括开源模型）以适应其目的，或选择通过API使用托管供应商服务。但出于治理和合规原因或其他原因，一些企业正在从头开始使用定制数据构建模型，并花费数以万计甚至数百万美元用于训练和运行这些模型。

DatologyAI能够扩展到“千万亿字节”格式的数据，并部署到客户的基础设施上，无论是在本地还是通过虚拟专用云。这使其与其他数据准备和筛选工具（如CleanLab、Lilac、Labelbox、YData和Galileo）相区别开来，后者在能够处理的数据范围和类型上更加有限。

DatologyAI还能确定数据集中的哪些“概念”（例如，教育聊天机器人训练集中与美国历史相关的概念）更复杂，因此需要更高质量的样本，以及哪些数据可能会导致模型产生意想不到的行为。

然而，DatologyAI的技术有多有效呢？有理由持怀疑态度。历史已经证明，自动数据筛选并不总是按预期运行，无论方法多么复杂，数据多么多样化。

德国非营利组织LAION在发现数据集包含儿童性虐待图片后，不得不撤下一个通过算法筛选的AI训练数据集。此外，像ChatGPT这样的模型，尽管在训练时经过人工和自动过滤以减少毒性，但在特定提示下仍可能生成有毒内容。

有些专家会争辩说，无法摆脱手动筛选，至少不希望使用AI模型取得强大的结果。从亚马逊到谷歌再到OpenAI，今天最大的供应商都依赖于人类专家团队和（有时是低薪）标注者来塑造和完善其训练数据集。

Morcos坚称，DatologyAI的工具并不意味着完全取代手动筛选，而是提供可能没有被数据科学家想到的建议，尤其是针对缩减训练数据集大小的问题。在此方面，Morcos有些权威——他与斯坦福大学和图宾根大学的研究人员共同撰写的一篇学术论文于2022年在NeurIPS机器学习会议上获得了最佳论文奖，该论文的重点是在保持模型性能的同时减少数据集的大小。

总的来说，DatologyAI的技术似乎令人期待。这家初创公司的种子轮融资规模达到1165万美元，领投方是Amplify Partners，其他参与者包括Radical Ventures、Conviction Capital、Outset Capital和Quiet Capital，而其他天使投资者包括Cohere联合创始人Aidan Gomez和Ivan Zhang，Contextual AI创始人Douwe Kiela，前英特尔AI副总裁Naveen Rao以及生成扩散模型的发明者之一Jascha Sohl-Dickstein等等。可以说，这是一个令人印象深刻的AI权威名单，这也表明Morcos的说法可能有些道理。

本文介绍了数据智能公司DatologyAI的创始人Ari Morcos及其公司的技术和目标。虽然自动数据筛选技术的出现为AI模型训练带来了新的可能性，但仍存在着一些挑战和争议。然而，DatologyAI凭借其先进的技术吸引了包括谷歌、Meta在内的巨头以及许多知名的AI专家的投资，这表明了该技术在行业内的潜在影响力。最后，作者提出了对于这一技术的一些看法和疑虑，强调了手动筛选在保证模型质量方面的重要性。

正文完