$("body").append("")

OpenAI推出Web爬虫以优化大型语言模型

617次阅读
没有评论

OpenAI推出Web爬虫以优化大型语言模型

OpenAI近日发布了一则博客文章,宣布推出了一款Web爬虫,旨在“可能”提升未来的AI模型。这里所提到的未来模型并不仅限于GPT-5,该公司也可能用它来改进GPT-4等其他模型。

在因从多个知名出版物中获取付费内容而受到批评后,OpenAI宣布他们新推出的Web爬虫将被配置成过滤那些要求付费访问的源站。它还将剔除那些被认定为收集个人可识别信息(PII)或包含违反OpenAI政策文本的源站。

该公司在声明中表示:“允许GPTBot访问您的网站可以帮助AI模型变得更加准确,提升其通用功能和安全性。”

OpenAI还为希望完全阻止GPTbot爬行其网站的网站所有者提供了说明。他们还可以选择限制对其网站特定区域的访问,同时仍允许爬虫扫描其余内容。

结论:

OpenAI多年来一直在互联网上进行数据抓取,据报道使用了Common Crawl等工具来训练其大型语言模型,而未经出版商或网站所有者同意。虽然从技术上讲,出版商可以通过对其robots.txt文件进行微小调整来阻止这种情况,但很少有人意识到他们的数据被用于训练这些大型语言模型。

目前尚不清楚OpenAI推出带有站点所有者控制的爬虫的动机是出于善意的愿望,各方利益相关者的压力,还是完全不同的原因。然而,这一举措表明OpenAI正在努力确保在数据获取过程中遵守合适的准则,并提供给站点所有者更多的控制权,以便更好地平衡AI研发与隐私保护之间的关系。这也为AI行业在数据使用和伦理方面的发展提供了一个引人注目的案例。

正文完