打破数据孤岛:联邦学习技术实践探索

时间:2019-07-29 来源:www.ouchun.net

  ,由微众银行、DataFun主办的主题为“打破数据岛屿:联邦学习技术实践的探索,技术沙龙在深圳举行。魏忠银行人工智能部副总经理陈天健,高级研究员范涛,人工智能系统架构师曾杰,以及腾讯宙斯沙箱产品技术负责人陈雄等专家,从联邦学习时代,新一代联邦学习技术,联邦学习开源平台FATE,以及数据合作和安全多方计算,充分说明联邦学习如何打破“数据岛”和“数据隐私”的两难保护。

20190726151357331001(2).jpg

经过长期的发展,人工智能近年来在算法,计算能力和数据方面取得了重大突破,并在工业应用中发挥了举足轻重的作用。然而,接下来是一系列新问题。例如,数据分散在大多数行业中的“数据岛”,以及越来越受到关注的“数据隐私保护”问题。针对数据孤岛和数据隐私的困境,微中银行的AI团队提出了基于“联邦学习”的基于系统的通用解决方案,以及基于GitHub的开源工业级联邦学习技术框架FATE,有效地帮助多个机构。在满足用户隐私保护,数据安全和政府法规的前提下,执行多方数据使用和联合建模。目前,微中人工智能推动了FATE在信用风险控制,监管技术,零售,保险等领域的应用。

联邦学习的背景

案例,GeneralDataProtectionRegulation)和其他数据隐私保护法律法规被引入,数据隐私保护和数据安全问题受到越来越多的关注。

20190726151357769002.jpg

国内数据监管法律制度研究

同时,国内数据监管法律制度不断完善,具有两个特点:

严格:数据监管变得越来越严格,处罚越来越严格;

l综合:保护个人信息数据。保护各种数据,如科学数据,医疗数据和电子商务数据。

在这种情况下,如何合理和合法地使用大数据以使业务能够继续运行需要联邦学习技术。

20190726151358349003.png

魏中银行人工智能部副总经理陈天健

陈天健说,联邦学习是一种大数据合作机器学习技术,用于安全合规。其他技术之间最根本的区别在于联邦学习是大数据合作过程中权利,责任和利益的调整工具。这符合当前时代。并产生。联邦学习的应用场景也非常广泛,没有特殊的领域或特定的算法限制。威中银行已经在信用风险控制,智能城市管理,机器视觉,设备故障检测等方面开展了各种应用和领域合作伙伴。技术合作促进了联邦学习社区的进一步发展。

无论中国人工智能开源软件开发联盟(AIOSS)是否在中国发布了第一个联邦学习标准,或者越来越多的合作咨询,大量组织都关注联邦学习。许多行业组织进一步探索了联邦学习的应用,以解决日益严重的数据隐私问题以及全世界人类关注的问题。未来可以预期联邦学习。

FATE:新一代联邦学习技术和应用实践

人工智能技术的应用和着陆往往在现实与理想之间存在很大差距:

理想:良好的数据质量,足够的标签数据和数据集中度;

现实:数据质量差,标签数据缺乏,数据隔离分散。超过80%的企业存在数据岛问题。

20190726151358881004.jpg

联邦学习分类系统

范涛指出,联邦学习是解决上述问题的关键技术。它具有数据隔离数据孤岛,无损,等价和互利的特点。根据不同的使用场景,联邦学习可分为:垂直联邦学习,横向联邦学习和联邦移民学习。

20190726151359816005.png

范忠,魏中银行高级研究员

目前,联邦学习已在多个领域获得授权:

l银行+监管:联合反洗钱模式

l互联网+银行业务:联合信用风险控制建模

l互联网+保险:联合股权定价模型

l互联网+零售:联合客户价值模型

20190726151359935006.jpg

遇见FATE

最后,范涛介绍了由Weizhong Bank领导的联邦学习开源项目FATE(FederatedAITechnologyEnabler)。其核心功能是:

lFATE-Serving:联邦在线模型服务

lFATE-Flow&FATE-Board:联邦建模管道和可视化

lFATEFederatedML:联邦学习算法的常用功能组件

lEggRoll:分布式计算和存储抽象

lFederatedNetwork:跨站点网络通信抽象

建立端到端的联邦学习管道生产服务

联邦学习的优势在于它可以确保数据中涉及的所有各方都无法构建数据并保持数据独立性,并构建模型以提高机器学习效果。在联邦机制下,安全隐私具有优势,但技术面临更多挑战。作为工业级框架,端到端联邦学习管道致力于高弹性,高性能的联邦学习任务,包括建模,培训,模型管理,生产发布和在线推理。

20190726151359929007.jpg

端到端联邦学习管道

Zeng Jice分享了如何灵活地管理复杂的联邦学习任务,可视化联邦建模,思考和实践在线联合推理服务,并解决实验机器学习到实际生产应用程序的困难。

20190726151400766008.png

魏忠银行人工智能系统架构师Zeng Jice

Zeng Jice专注于:FATE-Flow,端到端的联邦学习管道调度平台。包括以下功能:

lDAG定义联合学习管道:多方非对称PipelineDAG,通用json格式DAGDSL,DSL-Parser

l联邦任务协同调度:多方任务队列管理,协同分发任务,任务一致性保证,多方状态同步等。

联邦模型管理:联合模型访问,联合模型一致性,版本管理,发布管理等。

l联邦任务生命周期管理:多方启动和停止,状态检测等。

l联邦任务输入输出实时跟踪:实时记录存储,如数据,模型,自定义指标,日志等。

在分享结束时,曾吉泽向所有人呼吁:“加入,让我们联合起来!”

Aegis沙箱:数据合作和安全多方计算揭示

在数字授权的浪潮中,有许多机器学习的应用场景。机器学习是一种需要极高数据质量的应用程序,从而产生更大的数据流。无论是功能工程,模型培训和预测,在数据合作和数据安全隐私保护方面,安全的多方计算技术,联邦学习等都有很大的用处。腾讯云神盾数据沙箱基于腾讯现有的数字生态系统,为数据协作提供安全可靠的机器学习平台,涵盖业务引发,联合建模和在线服务。

20190726151400481009.jpg

沙箱分布式协同建模

张雄指出,安全的多方计算MPC是安全和不可信第三方多方协调计算的问题。

常用的安全多方计算技术有:

l秘密分享

l混乱电路

l无意中传播

l同态加密

20190726151400054010.jpg

腾讯Aegis沙盒产品技术负责人张雄

在分享会上,张雄首先介绍了MPC中的四项基本技术。然后从小型到大型的业务场景。该系统解释了如何应用MPC技术和联邦机器学习来保护Aegis沙箱数据合作业务中两个合作伙伴之间的数据安全。张雄表示,联邦学习框架FATE可以使沙箱不交换数据资产方和业务方的原始数据,达到数据隐私保护的目的,完成业务上的数据合作。

最后,张雄表示,Aegis沙箱的目标是基于腾讯云公共云上现有的大数据生态系统,为具有计算或存储功能的大数据集群提供数据合作环境,以帮助腾讯云。各行各业都更好地认识到“技术好,数字授权”的优势。在未来的规划中,FATE将从两个方面应用于深沙箱。一方面,Aegis沙箱将推动公有云的现有数据资产在沙箱中部署FATE,帮助那些在自己的行业维度上具有数据优势的企业,并深化数据的价值,融入数字生态互联网。另一方面,Aegis数据沙箱希望利用FATE在腾讯云上创建数字生态系统,吸引需要更多数据的公司提高业务转换率,并迁移到腾讯云以实现数字授权的魅力。

该沙龙揭示了联邦学习如何成为打破数据孤岛的可行方式。联邦学习的研究和着陆探索不会停止,FATE将继续改进。面对联邦学习的未来,陈天健说:“目前,联邦学习的应用主要受网络带宽和芯片计算能力的限制。我们现在主要在数据中心进行联邦学习,两者都是可以更好地满足。未来,我们需要在手机等边缘设备上进行联邦学习,因此更多的带宽通信技术和更强大的边缘计算是不可或缺的。我对5G通信技术非常乐观,它可以带来足够的带宽联邦学习,手机芯片越来越强大,联邦的研究也不会太遥远,无法覆盖大量的移动设备。“

20190726151400712011.jpg