Facebook的母公司宣布,他们将DINOv2计算机视觉模型系列开放供商业使用。
Meta将该模型的许可证改为Apache 2.0,这意味着它可以在商业许可的软件或企业应用程序中使用,但Apache商标不能在许可的专有软件或相关文档中使用。
DINOv2是一系列用于编码视觉特征的基础模型。它使用自监督学习,可以从任何图像集合中学习,包括图像的深度估计。
Meta的AI团队表示:“通过转向Apache 2.0许可证并共享更广泛可用的模型,我们的目标是促进计算机视觉社区内的进一步创新和合作,使DINOv2能够在从研究到实际解决方案的各种应用中使用。”
Meta还宣布发布一系列基于DINOv2的密集预测模型,用于语义图像分割和单眼深度估计。
DINOv2演示也经过了全面改进,用户可以尝试其估计图像深度、语义分割和无监督通过密集匹配来映射图像的所有部分的能力。
DINOv2演示可以在此处访问 - https://dinov2.metademolab.com/
新的FACET基准
Meta还发布了一个用于评估计算机视觉模型公平性的新基准 - FACET(计算机视觉公平性评估)。
Meta的AI团队表示,传统上在计算机视觉中评估公平性是“难以做到的”。
Meta在一篇博客文章中表示:“误标记的风险是真实存在的,使用这些AI系统的人可能会根据他们的人口统计特征而有更好或更差的体验,而不仅仅是任务本身的复杂性。”。
FACET仅用于研究评估,不能用于训练商业AI模型。
它由32,000张图像组成,包含50,000名人,由专业人类标注者标记了人口统计属性。这些属性包括被认为的性别呈现以及其他身体属性,如被认为的肤色和发型,以及职业和活动类别,例如篮球运动员、吉他手或医生。
FACET还包含了用于构建其“Segment Anything”模型的SA-1B数据集中的69,000个口罩的人物、头发和服装标签。
Meta表示,他们请来“专业审阅员”手动注释与人口统计属性相关的数据。他们为图像中的人定义了边界框,并标记了与职业和活动相关的细粒度类别。
Meta希望这项测试能够帮助他们找出模型性能问题是否与人类属性相关,例如检测模型是否难以检测皮肤较暗的人。
Meta表示:“FACET可以用于探索分类、检测、实例分割和视觉基础模型在个体和交叉人口统计属性上的问题,以开发对计算机视觉模型可能存在的公平性问题的具体、定量的理解。”
FACET数据集可以在此处访问 - https://ai.meta.com/datasets/facet/
在FACET上测试DINOv2
为了展示他们的新基准,Meta在FACET上测试了DINOv2。
他们的研究人员发现,在被认为的性别呈现方面,DINOv2的性能不如OpenAI的CLIP模型的Web爬虫版本OpenCLIP。
然而,在被认为的年龄组和肤色方面,DINOv2的性能优于OpenCLIP和Meta自己的SEERv2模型。
完整的结果如下:
Meta表示,FACET已经使他们能够通过“深入探讨模型在类别层面的潜在偏见”来解决未来的潜在缺陷。
本文来自ChatGPT3.5