选自arXiv作者:Peter Kairouz 等机械之心编译到场:魔王、杜伟联邦学习(Federated Learning,FL)指多个客户端在一其中央服务器下协作式地训练模型的机械学习设置,该设置同时保证训练数据去中心化。联邦学习使用局部数据收集和最小化的原则,能够降低使用传统中心化机械学习和数据科学方法带来的一些系统性隐私风险和成本。
近期社区对联邦学习的研究泛起发作式增长,这篇论文探讨了联邦学习的近期希望,并展示了该领域所面临的开放性问题和挑战。本论文作者来自澳大利亚国立大学、CMU、康奈尔大学、谷歌、香港科技大学等机构。原论文篇幅较长,机械之心举行了摘要编译。
论文链接:https://arxiv.org/pdf/1912.04977.pdf引言联邦学习指多个客户端(如移动设备或整个组织)在一其中央服务器(如服务提供商)下协作式地训练模型的机械学习设置,该设置同时保证训练数据去中心化。联邦学习使用局部数据收集和最小化原则,降低传统中心化机械学习方法带来的一些系统性隐私风险和成本。近期该领域在研究和应用层面都受到了极大关注。
这篇论文将先容联邦学习的界说性特征和面临的挑战,重点先容重要的实践局限和考量因素,并枚举大量珍贵的研究偏向。本论文旨在提出具备重大理论和实践意义的研究问题,勉励大家对这些问题展开研究,进而为现实世界带来庞大影响。
联邦学习这一术语由 McMahan 等人在 2016 年首次提出:「我们将该方法命名为联邦学习,因为该学习任务是由多个到场设备(即客户端)的松散联邦在中央服务器的协调下解决的。」在大量通信带宽有限的不行靠设备上对不平衡和非独立同漫衍(non-IID)数据执行支解,这被认为是联邦学习面临的焦点挑战。
谷歌研究科学家 H. Brendan McMahan。在「联邦学习」这一术语问世之前,已经泛起大量相关研究事情。
许多研究社区(包罗密码学、数据库和机械学习)追寻的恒久目的是:在不袒露数据的前提下,分析和学习漫衍于多个数据拥有者的数据。盘算加密数据的加密方法最早泛起于 20 世纪 80 年月早期,Agrawal 和 Srikant [15] 以及 Vaidya 等人 [390] 是使用中央服务器学习当地数据同时掩护隐私的早期研究。然而,纵然在「联邦学习」这一术语泛起以后,我们仍然发现没有一项研究能够直接解决联邦学习面临的全部挑战。
因此,「联邦学习」这一术语简练地形貌了基于去中心化数据(这些数据具备极高的隐私性)的应用机械学习问题的特点、局限和挑战。联邦学习的生长在于各学科的互助2019 年 6 月 17-18 日,在谷歌的西雅图办公室举行了一场关于联邦学习的研讨会,本论文基于这次研讨会写就。在为期两天的研讨会中,对换研联邦学习领域众多开放性挑战的综述论文的需求逐渐变得明晰。
研讨会上讨论的许多问题都有一个焦点特性:它们本质上是跨学科的。解决这些问题不仅需要机械学习,还需要漫衍式优化、加密学、宁静、差分隐私、公正性、压缩感知、系统、信息论、统计学等学科的技术。最难的问题泛起在这些学科的交织领域,因此本论文认为互助是促进联邦学习领域生长的必经之路。本论文的目的之一是:强调联合这些领域技术的方式,带来有趣的可能性和新的挑战。
「联邦学习」这一术语刚泛起时强调移动和边缘设备应用,现在人们对将联邦学习应用到其他应用的兴趣显著增长,包罗一些涉及少量相对可靠客户端的应用,如多个组织互助训练一个模型。研究者将这两种联邦学习设置划分称作「跨设备」(cross-device)和「cross-silo」。基于这些变体,本论文对联邦学习给出了一个更宽泛的界说:联邦学习是多个实体(客户端)协作解决机械学习问题的机械学习设置,它在一其中央服务器或服务提供商的协调下举行。
每个客户端的原始数据存储在当地,无法交流或迁移,联邦学习使用局部更新(用于立刻聚合 (immediate aggregation))来实现学习目的。局部更新(focused update)是仅限于包罗特定学习任务最少必须信息的更新。
聚合应在数据最小化服务中尽可能早地执行。我们注意到,该界说将联邦学习与完全去中心化的(peer-to-peer)学习技术区离开来。跨设备 FL、Cross-Silo FL 和传统单数据中心漫衍式学习关于掩护隐私的数据分析,这方面的研究已经举行了 50 余年,但在最近十年才泛起可以大规模部署的解决方案。现在,跨设备联邦学习和联邦数据分析已经在消费者数字产物中获得应用。
谷歌在 Gboard 移动键盘、Pixel 手机功效和 Android Messages 中广泛使用联邦学习。谷歌在跨设备联邦学习领域遥遥领先,但现在更广泛的群体对该领域发生了兴趣,例如:苹果在 iOS 13 系统中使用跨设备联邦学习,如 QuickType 键盘和「Hey Siri」的人声分类器等应用;doc.ai 正在开发适合医疗研究的跨设备联邦学习解决方案;Snips 探索针对热词检测的跨设备联邦学习。
cross-silo 应用也在多个领域泛起,包罗再保险业务中的金融风险预测、药物研发、电子病历挖掘、医疗数据支解和智能制造。对联邦学习技术不停增长的需求带来了大量可用的工具和框架,包罗 TensorFlow Federated [38]、Federated AI Technology Enabler [34]、PySyft [342]、Leaf [35]、PaddleFL [36] 和 Clara 训练框架 [33](详情参见附录 A)。大型科技企业和小型创业公司都在打造席卷联邦学习技术的商业数据平台。
下表 1 从多个维度对比了跨设备联邦学习、cross-silo 联邦学习和传统的单数据中心漫衍式学习。这些特征构建了联邦学习实际系统必须满足的一些约束,从而促进联邦学习的生长,找到其面临的开放性挑战。表 1:联邦学习 vs. 单数据中心漫衍式学习的典型特征。跨设备和 cross-silo 联邦学习是 FL 领域的两个分支,但并非全部。
该表将联邦学习的主要界说性特征用粗体字着重显示,不外其他特征对确定哪种技术可用也很关键。这两种联邦学习变体是联邦学习领域中的代表性和重要示例,而差别的联邦学习设置可能具备差别的特征组合。除特别注明,本论文剩余内容主要思量跨设备联邦学习设置,不外其中的一些问题也适用于其他联邦学习设置。本文第 2 章先容了联邦学习的其他变体及应用。
接下来,我们来更详尽地探讨跨设备联邦学习,主要从典型大规模部署这一实践层面出发。Bonawitz 等人 [74] 对特定生产系统提供了越发详尽的先容,包罗对特定架构的选择和考量。跨设备联邦学习设置本章从应用角度出发,先容跨设备联邦学习中泛起的一些实际问题,以及如何将它们融入到更宽泛的机械学习开发和生态系统部署中。
希望本章能够为下文先容联邦学习的开放性问题提供有用的语境和念头,同时资助研究人员预计在现实系统中直接部署特定新方法的可行性。在探讨联邦学习训练流程之前,我们先来看模型的生命周期。
联邦学习中的模型生命周期联邦学习通常由为特定应用开发模型的模型工程师来驱动。例如,自然语言处置惩罚工程师可能为虚拟键盘开发「下一个单词预测模型」。下图 1 展示了其主要组件和到场者:图 1:联邦学习训练模型的生命周期,以及联邦学习系统中的多个到场者。
第 4 章将从威胁模型的角度再次先容该图。整体来看,其典型事情流程如下所示:问题识别:模型工程师找出要使用联邦学习解决的问题;客户端设置:如有需要,将客户端(如在手机上运行的 app)设置为在当地存储须要的训练数据(只管时间和数量都存在限制)。
在许多案例中,app 已经存储了数据(如文本短信 app 必须存储文本信息,照片治理 app 存储照片)。可是,在另一些案例中,还需要保留分外的数据或元数据,如用户交互数据,以为监视学习任务提供标签;模拟原型开发(可选):模型工程师可能为模型架构开发原型,并用署理数据集(proxy dataset)在联邦学习模拟情况中测试学习超参数;联邦模型训练:启动多个联邦训练任务来训练模型的差别变体,或者使用差别的优化超参数;(联邦)模型评估:在任务经由充实训练后(通常需要数天),分析模型并选择优秀的候选模型。
分析可能包罗在数据中心的尺度数据集上盘算获得的怀抱,或者模型在留出客户端上评估当地客户端数据的联邦评估效果;部署:最后,在选择好模型之后,就要进入尺度的模型部署流程了,该流程包罗手动质量保证、实时 A/B 测试(在一些模型上使用新模型,在另一些模型上使用之前的模型,然后对比其性能)以及分阶段部署(staged rollout,这样可以在发现较差行为时实时回退,以免影响过多用户)。模型的特定安装流程由应用的所有者设置,通常独立于模型训练历程。
也就是说,对使用联邦学习或传统数据中心方法训练获得的模型,都可以同样地使用该步骤。联邦学习系统面临的主要实际挑战之一是:尽可能简化上述事情流程,使其完美靠拢使用中心化训练方式获得的易用机械学习系统。只管本论文主要关注联邦学习,但也会涉及其他组件,包罗模型评估和 debug 等联邦分析任务。接下来,我们将详细先容整个联邦学习模型的训练历程(即上述步骤的第 4 步)。
典型的联邦训练流程现在,我们思量联邦学习训练的模板,它包罗 McMahan 等人 [289] 提出的联邦平均算法。另外,可能存在其他变体,但该算法提供了一个通用的起点。服务器(服务提供商)部署整个训练历程,它重复以下步骤直到训练停止(这取决于监测训练流程的模型工程师):客户端选择:服务器从一组满足要求的客户端中举行采样。
例如,服务器需要确认手机是否接通电源、在无限带宽 wi-fi 毗连状态还是空闲状态,以制止影响设备用户;广播(broadcast):选中的客户端从服务器下载当前模型权重和训练法式(如 TensorFlow graph [6]);客户端盘算:每个选中的设备通过执行训练法式在当地盘算模型更新,例如在当地数据上运行 SGD(就像在联邦平均算法中那样);聚合(aggregation):服务器收集全部设备更新。为了提高效率,一旦足够多的设备陈诉效果,则落伍者会被抛弃。
这一步也是其他技术的集成点,这些技术可能包罗:能够增强隐私性的宁静聚合、为提高通信效率对更新聚合执行有损压缩以及差分隐私所需的噪声添加和更新裁剪(update clipping);模型更新:基于到场当前轮次的所有客户端盘算获得聚合更新,服务器基于此在当地更新共享模型。下表 2 先容了在典型的联邦学习移动设备应用场景中的规模量级:表 2:典型跨设备联邦学习应用中的规模。
客户端盘算、聚合和模型更新阶段的分散并非联邦学习的严格要求,但它确实清除了特定种别的算法,如异步 SGD(每个客户端的更新被立刻应用于模型,没有聚合其他客户端的更新)。这种异步方法可简化系统设计的某些方面,从优化角度来看也是有益的(这一点存在争议)。可是,上文先容的训练方法对于分散差别研究领域的课题具备显著优势:压缩、差分隐私和宁静多方盘算领域的希望有益于尺度原语(如盘算去中心化更新的总和或均值),这些希望由任意优化或分析算法组成,只要这些算法以聚合原语的形式表达。
这里还需要强调一点:从两个方面来讲,联邦学习训练流程不应影响用户体验。首先,如上所述,纵然模型参数通常在联邦训练每一轮的广播阶段发送到一些设备,但这些模型是训练流程中转瞬即逝的部门,并不用于建立向用户展示的「实时」预测。这一点很关键,因为训练机械学习模型很难,错误设置超参数可能导致预测效果极差的模型。用户可见的模型应用被延迟到模型生命周期中的第 6 步——部署流程;其次,训练自己对用户是不行见的,就像在客户端选择阶段形貌的那样,训练不会拖慢设备或耗电,因为它只在设备处于空闲状态以及接通电源时执行。
可是,这些约束带来的有限可用场景直接导致开放性研究挑战,如半环数据获取(semi-cyclic data availability)和客户端选择的潜在偏见。联邦学习研究现实世界联邦学习设置包罗基于来自医疗系统的医疗数据训练模型,使用数以亿计的移动设备执行训练等等。本论文剩余部门将先容现实世界 FL 设置的局限与挑战所带来的开放性问题。
更不用说,大部门研究联邦学习问题的研究者不太可能部署生产级联邦学习系统,也无法获取数百万现实世界设备。这导致实际设置和模拟实验之间存在显著区别(实际设置刺激研究,模拟实验为给定方法在现实问题中的适应性应用提供证据。
)因此,从实验角度来看,联邦学习研究与其他机械学习领域略有差别,所以在举行联邦学习研究时需要多做思量。详细而言,在枚举开放性问题时,研究者实验指出可在模拟情况中使用的相关性能怀抱指标、使模型更能代表其在现实世界中性能的数据集特征等等。
对模拟的需求同样对联邦学习研究的展示有所影响。研究者对如何展示联邦学习研究提出以下几条温和的建议:如上表 1 所示,联邦学习设置涉及大量问题。与具备明确设置和目的的领域相比,准确形貌特定联邦学习设置的细节很是重要,尤其是当提出方法做出的假设不适用于所有设置时(如到场所有轮的有状态客户端);固然,任何模拟的细节都应获得展示,以便研究可复现。可是,说明模拟要捕捉现实世界的哪些方面也很重要,这样才气使在模拟问题上乐成的方法也能乐成用于现实世界目的,并取得希望;隐私和通信效率通常是联邦学习中的首要思量因素,纵然实验是使用公然数据在单个机械上运行的模拟实验。
联邦学习在这方面更胜其他机械学习类型,因为对于提出的任何方法,明确盘算发生地和通信内容都是十分重要的。用于联邦学习模拟的软件库和尺度数据集有助于减轻实施高效联邦学习研究的挑战,附录 A 总结了现在可用的部门软件库和数据集。
针对差别的联邦学习设置(跨设备和 cross-silo)开发尺度评估怀抱指标和构建尺度基准数据集,仍然是未来事情的重要偏向。论文剩余章节内容概览由于本篇论文篇幅较长,剩余章节仅截取目录内容,读者可自行前往原文检察详细内容。本论文第 2 章基于上表 1 展开,探讨跨设备设置以外的其他联邦学习设置和问题。第 3 章重新聚焦如何提高联邦学习效率和效用这一焦点问题。
本章探讨多种使联邦学习越发高效的技术和开放性问题,包罗多种可能的方法,如:开发更好的优化算法,为差别客户端提供差别模型,使超参数搜索、架构搜索和 debug 等机械学习任务在联邦学习情况中越发容易,提升通信效率等等。第 4 章涉及威胁模型,以及实现严格隐私掩护这一目的所需的大量技术。和所有机械学习系统一样,联邦学习应用中也存在一些操控模型训练的因素,一些失败是不行制止的,第 5 章将讨论这些内容。
第 6 章解决了提供公正且无偏差模型所面临的重要挑战。第 7 章竣事语。
本文来源:华体会体育-www.zajsjf.com
Copyright © 2009-2022 www.zajsjf.com. 华体会体育科技 版权所有 备案号:ICP备79039124号-2