数字化内容审查一直是保障在线平台秩序的关键任务,近日,OpenAI发布了关于使用其旗舰生成AI模型GPT-4进行内容审查的新方法,试图减轻人工团队的负担。该方法基于一种策略,引导模型进行审查判断,并创建了一组可能违反策略的内容示例。然后,策略专家对这些示例进行标注,将未标注的示例输入GPT-4,观察模型的判断与人工标注的一致性,并根据此进行策略的调整和完善。
这一方法声称能够将新内容审查策略的推出时间缩短至数小时,相较于一些刚性的方法,OpenAI强调其在迭代过程中更具灵活性。然而,尽管如此,我们对于这种方法仍需保持怀疑。
众所周知,基于人工智能的审查工具并不新鲜。Google的Counter Abuse Technology Team和Jigsaw部门维护的Perspective几年前就已面市。此外,许多初创公司也提供自动化审查服务,如Spectrum Labs、Cinder、Hive以及近期被Reddit收购的Oterlu。
然而,这些工具并非毫无瑕疵。不久前,宾夕法尼亚州立大学的团队发现,社交媒体上关于残障人士的帖子往往被常用的情感和毒性检测模型标记为更负面或有毒。另一项研究显示,早期版本的Perspective往往无法识别使用“重新定义”词汇如“酷儿”以及拼写变体的仇恨言论。
这些失败的部分原因在于标注人员将其自身的偏见带入了训练数据集的标签中。例如,自认为非洲裔美国人或LGBTQ+社区成员的标注人员与不属于这两个群体的标注人员之间的标注存在差异。
OpenAI是否解决了这个问题?笔者认为尚未完全解决。公司本身也承认了这一点:
“语言模型的判断容易受到在训练过程中可能引入模型的不希望的偏见影响”,公司在文章中写道。“与任何人工智能应用一样,结果和输出需要通过保持人类参与来仔细监控、验证和完善。”
或许,GPT-4的预测能力能够比之前的平台提供更好的审查性能。然而,即使是今天最先进的人工智能也会犯错,我们尤其在涉及审查时不能忽视这一点。
综上所述,OpenAI的GPT-4数字化内容审查方法在理论上具备潜在的优势,可以为内容审查带来更快的推出速度和更灵活的调整策略。然而,我们必须保持审慎,警惕其中可能存在的偏见和缺陷。在内容审查的道路上,即使是最佳的人工智能也无法避免出错,我们不能忽视人类的监督与干预。
文章来自ChatGPT3.5