OpenAI推出Web爬虫以优化大型语言模型

OpenAI近日发布了一则博客文章，宣布推出了一款Web爬虫，旨在“可能”提升未来的AI模型。这里所提到的未来模型并不仅限于GPT-5，该公司也可能用它来改进GPT-4等其他模型。

在因从多个知名出版物中获取付费内容而受到批评后，OpenAI宣布他们新推出的Web爬虫将被配置成过滤那些要求付费访问的源站。它还将剔除那些被认定为收集个人可识别信息（PII）或包含违反OpenAI政策文本的源站。

该公司在声明中表示：“允许GPTBot访问您的网站可以帮助AI模型变得更加准确，提升其通用功能和安全性。”

OpenAI还为希望完全阻止GPTbot爬行其网站的网站所有者提供了说明。他们还可以选择限制对其网站特定区域的访问，同时仍允许爬虫扫描其余内容。

结论：

OpenAI多年来一直在互联网上进行数据抓取，据报道使用了Common Crawl等工具来训练其大型语言模型，而未经出版商或网站所有者同意。虽然从技术上讲，出版商可以通过对其robots.txt文件进行微小调整来阻止这种情况，但很少有人意识到他们的数据被用于训练这些大型语言模型。

目前尚不清楚OpenAI推出带有站点所有者控制的爬虫的动机是出于善意的愿望，各方利益相关者的压力，还是完全不同的原因。然而，这一举措表明OpenAI正在努力确保在数据获取过程中遵守合适的准则，并提供给站点所有者更多的控制权，以便更好地平衡AI研发与隐私保护之间的关系。这也为AI行业在数据使用和伦理方面的发展提供了一个引人注目的案例。