AI领域在迅猛发展的同时也面临着一个严重问题:依赖于公共数据,尤其是网络数据,来训练AI模型正在制约其进一步发展。剑桥大学的技术创业家兼研究员丹尼尔·博伊特尔认为,这种现状使得AI无法充分发挥潜力。他与剑桥同事塔纳·托帕尔以及三星剑桥人工智能中心的前负责人尼古拉斯·莱恩于2020年共同创办了Flower,旨在解决这一日益严峻的问题。
博伊特尔在接受TechCrunch的电子邮件采访中表示:“公共的中心化数据只占世界数据的一小部分。相比之下,分布式数据——那些被困在手机、可穿戴设备、物联网设备中,或者被组织隔离的数据,比如企业内的业务单元——要大得多,也更全面,但现在对AI来说是无法触及的。”
Flower成立于2020年,旨在通过一种名为联邦学习的技术来“去中心化”AI训练过程。该平台允许开发人员在分布于数千台设备和位置的数据上训练模型,从而使得在涉及隐私或合规性问题时更加“安全”地进行训练。
联邦学习并不是一个新的方法。早在几年前,学术界就提出了这一技术,它涉及在分散的设备上训练AI算法,这些设备持有数据样本,而无需交换这些样本。可以使用集中式服务器来协调算法的训练,或者也可以在对等网络基础上进行编排。但无论哪种情况,本地算法都在本地数据样本上进行训练,并且交换权重(算法的可学习组件)以生成全局模型。
Flower的平台利用联邦学习提供了分布式AI模型训练的去中心化替代方案。通过这种方式,数据无需在训练过程中离开源设备或位置,而是“计算去适应数据”,在每个数据所在位置进行部分训练,只传输训练结果,而不传输数据。
Flower最近推出了FedGPT,这是一种类似于OpenAI的ChatGPT和GPT-4的大型语言模型(LLM)的联邦学习方法。FedGPT允许公司在遍布全球的各种设备上进行LLM训练,包括数据中心和工作站,同时尊重隐私和数据移动的限制。
Flower还与开源网络浏览器Brave合作,共同推动名为Dandelion的项目。该项目旨在建立一个覆盖现有5000多万Brave浏览器客户端的开源联邦学习系统。
随着人工智能进入越来越受监管和对数据可靠性要求更高的时代,Flower为分布式AI训练提供了一种新的解决方案。通过联邦学习技术,Flower让数据去适应计算,极大地提升了数据隐私和合规性的保护。其平台不仅吸引了众多开发者,还赢得了包括知名公司和高校在内的用户。Flower在联邦学习领域的创新,将为AI领域的发展带来新的动力,推动开源联邦技术的普及,为社区贡献更多可能性。