ZKX's LAB

科研成果累累 平安科技联邦学习技术团队论文被EMNLP2020收录

2020-10-15新闻8

近期, 备受关注的一年一度的全球学术大会EMNLP2020一共收到投稿3114篇,共录用754篇,其中,平安科技联邦学习技术团队的论文《Empirical Studies of Institutional Federated Learning For Natural Language Processing》(联邦学习框架中自然语言处理模型的实证研究)被自然语言处理(NLP)方向的国际学术会议EMNLP 2020收录。

全球学术大会EMNLP是计算机语言学和自然语言处理领域最受关注的国际学术会议之一,由国际语言学会(ACL)旗下SIGDAT组织。其中,会议涵盖的语义理解、文本理解、信息提取、信息检索和机器翻译等多项技术主题,是当今学术界和工业界备受关注的热点方向。

近年来,平安科技联邦学习技术团队已取得多项颇具显示度和开创性的科研成果,此次发布的这篇论文也是业界发表的在联邦学习框架下实现NLP模型训练的创新性研究成果,是继联邦学习团队在咳嗽检测COVID-19智能系统、Occam自动化机器学习平台研发后获得的又一个创新性的突破,再一次受到全球专家的认可。

业内联邦学习NLP模型重磅发布

联邦学习为深度学习提供了一种数据可用不可见的训练方式,因而在深度学习领域激起了新的热潮。利用大量的训练样本,深度学习能够学习到几乎任意任务的数学模型。然而,由于用户隐私政策、数据监管法规的限制,很多数据碎片化地保存在不同机构的数据库里,传统的深度学习方法将无法在这样的数据上进行训练,联邦学习正是为了解决这样的数据孤岛问题应运而生。

科研成果累累 平安科技联邦学习技术团队论文被EMNLP2020收录

差分隐私保护的联邦学习系统架构图

(图中不同灰度的背景颜色代表着不同的安全保护边界)

随着新的训练方法和计算硬件的发展,联邦学习被越来越多地应用到图像、语音、文本等多种数据的任务训练中。在论文中,团队在支持GPU的服务器群集上成功部署了联邦自然语言处理网络。以一个常用的NLP模型:TextCNN为例,展示了联邦学习在自然语言处理领域的应用潜力。此外,团队在联邦网络训练过程中引入了可管理的差分隐私技术,有效保护了联邦学习参与者的数据安全(见图1)。与现有的客户端级别的隐私保护方案不同,团队提出的差分隐私是定义在数据集样本级别的,这与目标场景——机构间的联邦合作训练是一致的。通过综合大量实验分析,团队研究了联邦学习框架下TextCNN模型的超参数的最佳设置并评估了在不均衡数据负载情况下,差分隐私要求对联邦TextCNN模型的性能影响。

蜂巢联邦智能平台

人工智能的发展要借助大数据技术。大数据虽然会推动科技的发展,但是大数据下的隐私问题是不可忽视的问题。如何有效解决当下人工智能领域发展的难题?联邦学习成为当下最热门的技术研究方向之一。在此背景下,平安科技联邦学习技术团队自主研发蜂巢联邦智能平台,成功解决当下数据难题与隐私保护。

科研成果累累 平安科技联邦学习技术团队论文被EMNLP2020收录

蜂巢联邦智能平台示意图

横纵建模,多角度为打破数据孤岛

在实际的数据运用中,即便是同一家公司内的不同子公司或部门,也需要保护数据隐私。以平安集团为例,平安的财险和寿险各自拥有不同维度的用户数据,却很难把数据直接合并在一起来做建模。从“蜂巢”最初的架构设计上,平安科技就考虑到平安集团各个业务线与子公司之间存在数据壁垒的问题。同样的“数据不通”也反应在企业与企业、企业与政府之间,每家机构都有自己的数据,而基于隐私保护等原因,企业或政府数据不能对外进行共享。

平安科技联邦学习技术团队研发的联邦智能平台蜂巢,就是解决企业数据孤岛问题的商用级解决方案。它能够让参与方在不共享原始数据的基础上联合建模,从技术上打破数据孤岛,从而综合化标签数据,丰富用户画像维度,从整体上提升模型的效果,实现 AI 协作。

不同行业对于数据加密的要求不同,银行领域会对数据加密的要求更高。而平安科技是为数不多的支持国密级加密的企业平台,可以满足企业各个场景的不同需求。未来,平安科技将继续深耕技术,帮助企业在数据融合及隐私保护上实现进一步突破。

平安科技一直深耕人工智能领域,此次平安科技联邦学习技术团队在EMNLP 2020论文获得录用,表示受到了国际的认可。作为AI领域的前沿探索者,平安科技将用更先进的科技推动生态发展,创造更大的价值。

#行业互联网#AI人工智能

随机阅读

qrcode
访问手机版