近日,OpenAI 终于在其高级语音模式中添加了备受期待的视频和屏幕共享功能,使用户能够以不同的方式与聊天机器人进行交互。 这两项功能现已在 iOS 和 Android 移动应用程序上为 ChatGPT Teams、Plus 和 Pro 用户提供,并将于 1 月份推广到 ChatGPT Enterprise 和 Edu 订阅用户。然而,欧盟、瑞士、冰岛、挪威和列支敦士登的用户将无法访问高级语音模式。 OpenAI 于 5 月份首次展示了该功能,当时该公司推出了 GPT-4o,并讨论了 ChatGPT 学习“观看”游戏并解释正在发生的事情。高级语音模式于 9 月份向用户推出。 视频功能 用户可以通过高级语音模式屏幕上的新按钮访问视频并开始录制。 OpenAI 的视频模式感觉就像 Facetime 这样的视频通话,因为 ChatGPT 会实时响应用户在视频中展示的内容。它可以看到用户周围的情况,识别物体,甚至记住自我介绍的人。在 OpenAI 作为公司“12 天发货”活动的一部分进行的演示中,ChatGPT 使用视频功能帮助冲泡咖啡。ChatGPT 看到了咖啡用具,指示何时放入过滤器,并对结果进行了评论。 它也与谷歌最近宣布的 Project Astra 非常相似,在该项目中,用户可以打开视频聊天,而 Gemini 2.0 将对其所看到的内容做出响应,例如识别在伦敦街头发现的雕塑。在许多方面,这些功能是 AI 设备如 Humane Pin 和 Rabbit r1 所宣传的更高级版本:让 AI 语音助手对其在视频中看到的内容做出响应。 屏幕共享功能 新的屏幕共享功能将 ChatGPT 从应用程序中带入浏览器领域。 对于屏幕共享,三点菜单允许用户导航出 ChatGPT 应用程序。他们可以打开手机上的应用程序,并向 ChatGPT 询问有关其所看到内容的问题。在演示中,OpenAI 研究人员触发了屏幕共享,然后打开消息应用程序,请求 ChatGPT 帮助回复通过短信发送的照片。 然而,高级语音模式上的屏幕共享功能与微软和谷歌最近发布的功能有相似之处。 上周,微软发布了 Copilot Vision 的预览版本,该版本允许 Pro 订阅用户在浏览网页时打开 Copilot 聊天。Copilot Vision 可以查看商店网站上的照片,甚至可以帮助玩地图猜测游戏 Geoguessr。谷歌的 Project Astra 也可以以同样的方式阅读浏览器。 谷歌和 OpenAI 都在手机上发布了屏幕共享 AI 聊天功能,以瞄准可能更常在移动中使用 ChatGPT 或 Gemini 的消费者群体。但这些类型的功能可能标志着企业与 AI 代理更紧密合作的一种方式,因为代理可以看到一个人在屏幕上看到的内容。它可能是使用计算机的模型的先驱,如 Anthropic 的 Computer Use,其中 AI 模型不仅在查看屏幕,而且还在为用户积极打开标签和程序。 圣诞老人模式 为了增加趣味性,OpenAI 还在高级语音模式中推出了“圣诞老人模式”。新的预设语音听起来很像穿着红色西装的快乐老人。 与仅限于特定用户的新功能不同,“圣诞老人模式”现在可供具有移动应用程序、ChatGPT 网络版本以及 Windows 和 MacOS 应用程序高级语音模式访问权限的用户使用,直到 1 月初。 与圣诞老人的聊天不会保存在聊天历史记录中,也不会影响 ChatGPT 的记忆。 即使是 OpenAI 也感受到了圣诞精神。