一家名为 EndlessAI 的四岁人工智能初创公司虽然尚未家喻户晓,但其推出的免费增值 iOS 应用程序 Lloyd 却在悄然发布三个月后获得了 5 万多名用户。该应用程序利用专有的视频流和编码技术,将用户的实时视频视图输入到包括 OpenAI 的 GPT-4o 在内的基础 AI 模型中,帮助用户完成从自行车修理到讲睡前故事等各种任务。 尽管它还无法与 ChatGPT 相提并论——ChatGPT 在 2023 年 1 月发布后仅两个月就成为历史上最快突破 1 亿用户大关的产品——但这对 EndlessAI 的首席执行官 Roi Ginat 和执行主席 Thomas Pompidou 来说已经足够鼓舞人心了。他们在最近的一次视频通话采访中告诉 VentureBeat,他们计划在 2025 年初向第三方开发者开放平台,并在 1 月推出面向消费者的 Android 应用程序。 此外,EndlessAI 已经开始升级 Lloyd,推出了所谓的“powers”,或者正如 Pompidou 所描述的那样,“基本上是经过微调的大型语言模型(LLM),可以为消费者提供特定用例的深入指导”。例如,该应用程序中现在提供的第一个 Lloyd Power 是“Chef”,它为用户提供了一个实时的、完全由 AI 驱动的教练,可以在用户烹饪时(如果用户将智能手机摄像头对准炉灶或烹饪区域)观看用户,并提供逐步指导。另一个计划很快推出的 Lloyd Power 是“Tour Guide”,它允许用户举起手机,查看周围环境的实时上下文信息。通过捕获位置的视频,它可以识别兴趣点,提供相关细节,甚至可以推荐附近的景点或活动。 使实时视频分析大规模普及 由于当前的 LLM 由于计算成本高昂而难以有效地处理实时视频,EndlessAI 的技术克服了这一限制,将视频分析的成本降低了 99%以上。Pompidou 强调了该应用程序的更广泛使命:“我们的使命是将 AI 扩展到现实世界。现实世界是视觉和实时的,而当今的大型语言模型,由于其架构的原因,在准确、大规模和成本有效地分析视频方面面临挑战。这就是我们所实现的。” 这使得实时视频分析成为可能,允许用户以新颖的方式与环境进行交互,从诊断机械问题到创建个性化的睡前故事。Lloyd 的核心区别在于它能够以通常与此类任务相关的成本的一小部分通过 LLM 处理视频数据。传统的 LLM 架构不是为视频优化的,使得实时视频分析成本过高且速度缓慢。 “使用 ChatGPT 分析视频,假设它可以,每小时的成本将超过 300 美元,”Pompidou 说。“而使用 Lloyd,我们每小时只需花费 10 美分就可以提供相同水平的准确性。” 这种成本效益是在不牺牲准确性的情况下实现的,这使得 Lloyd 与依赖降低帧率或降低分辨率来降低成本的竞争对手区分开来,而这些竞争对手往往以牺牲可靠性为代价。 “我们的通信层在其他解决方案无法做到的方面非常强大。它允许开发人员以无与伦比的可靠性和性能集成实时 AI 服务,如语音到文本、文本到语音和视频分析。” 当 Pompidou 展望未来时,他对该应用程序的潜力进行了展望:“想象一下,一个经过微调的 LLM 对每个宜家说明书进行了训练,可以通过视频逐步指导客户,并实时识别错误。这只是我们的技术如何改变用户体验的一个例子。” EndlessAI 计划通过 Lloyd 及其基础视频编码技术进军的另一个大领域是执法部门,特别是提供对警察身体摄像头镜头的分析。 “如果有人心脏病发作,它将识别出来,并立即为警察提供该做什么的指示,”Pompidou 说。 隐私和安全 尽管 Lloyd 本身可以看到你用智能手机摄像头指向的任何东西,但 EndlessAI 优先考虑用户隐私。 “数据保留在[用户]账户中,我们只有在用户明确请求支持时才会访问它,”Ginat 说。 这种方法确保了强大的保护措施,同时实现了无缝交互。 但结果是,EndlessAI 并不确切知道 Lloyd 在用户中最受欢迎的用途是什么。据传闻,其调查和反馈表显示,用户对食品准备、家庭维修、时尚和生活方式指导等方面感兴趣。 2025 年初推出新的开发者工具 在 Lloyd 的面向消费者的功能获得吸引力的同时,EndlessAI 也在构建工具,以赋予开发人员和企业利用其技术的能力。 “我们的长期路线图包括从明年初开始为开发人员提供的 SDK,”Pompidou 说。“它将使他们能够以极大的简单性创建独特的视觉 AI 解决方案。” SDK 将允许开发人员将 AI 视觉功能集成到他们自己的应用程序中。 “为开发人员提供的第一个产品将是一个强大的实时 API 通信平台,连接到 OpenAI 和其他后端,”Ginat 告诉 ventureBeat。“开发人员可以选择他们想要使用的组件,如音频服务或语音到文本。” 这些工具的应用跨越了各个行业,从创建 AI 增强的聊天应用程序到将视频分析集成到生产线和安全监控系统中。 EndlessAI 的目标是提供可扩展的解决方案,以适应不同的性能和成本要求。 “我们的开发人员工具将允许动态调整——根据用例和成本要求在后端服务或轻量级、设备上的解决方案之间进行选择,”Ginat 补充说。 通过将强大的 API 与直观的 SDK 相结合,EndlessAI 设想了一波超越传统文本或图像处理的 AI 驱动应用程序的新浪潮。“我们将为开发人员提供集成各种服务的能力,包括边处理视频,以增强他们的会话的额外功能,”Ginat 说。 改变消费者和企业 AI Lloyd 利用现有智能手机的能力——无需额外的硬件——使其具有独特的可访问性。通过降低进入门槛,EndlessAI 正在重新定义 AI 在日常生活和专业行业中的可能性。 凭借其快速的用户采用、多功能的应用和强大的路线图,Lloyd 有望成为 AI 领域的定义性创新。 “我们的长期战略是与 LLM 保持互补,”Pompidou 说。“即使模型能够本地处理视频,我们的目标仍然是成为使这些应用程序可行和成本效益高的效率层。”