10月27日,FATE开源社区第14期圆桌会圆满落幕。本次圆桌会,由FATE团队资深算法专家马国强老师、资深架构师曾纪策老师,为大家介绍FATE v1.7版本的内容。
视频回放&课件,点击下方链接获取:
第14期圆桌会回顾 | FATE 1.7版本内容介绍https://mp.weixin.qq.com/s/8JcBlbRj2FX0JxsubGdbvw
接下来带大家回顾经典问答环节,为各位朋友答疑解惑。
问答环节
● Q1:
left-Join那部分,匹配ID、样本ID,是说训练过程不会泄露公共样本的真实ID吗?
● A1:
所谓的真实ID其实是匹配ID。纵向联邦算法需要做样本对齐,真实ID匹配这一步还是需要的。但是经过PSI模块之后,如果开启了匹配ID的功能,在实际建模的时候,得到的ID列只是样本ID,类似uuid或者index这些无实际价值的字符串。
● Q2:
刚刚提到的BloomFilter,过滤原理是什么,怎么快速得到的候选集?
● A2:
BloomFilter主要是用来做粗选,样本比较少的一方,用自身的ID去产生一个BlommFilter,同时要保证有足够的误差。然后将结果发送给其它数据量大的一方,让其它方去过滤出可能的候选集,然后用候选集来进行正常的PSI流程。
● Q3:
如果是1亿对1亿的这种对称的、大量的PSI,有什么优化建议吗?
● A3:
1亿对1亿对称的,我们的优化点之一CRT优化也是有好几倍的提升的,因为A方计算量是r^e和da.= ya / r,这个计算是比较快的,rsa协议里面,e一般是65537=2**16+1,而d是和n基本是同阶,耗时主要在B方(拥有RSA私钥的一方)。
另外一亿这种数据一般是比较稳定的,该方的数据每次变动不大的话也可以应用离在线拆分的功能。毕竟A方即使是一亿,计算量也不大,也会有很大的提升。
● Q4:
1.7版本里面加密机制,有用到差分隐私吗?
● A4:
目前没有用到。因为联邦学习的应用,一般目标都是通过联邦建模去训练一个更好的模型,FATE现阶段的模型效果和中心化机器学习相比,效果基本是无损的。但如果用了差分隐私,联邦情况下比较难去评估真实效果,另外,差分隐私需要在安全性和噪声的选择上的平衡,而更大的noise虽然带来了安全性上的提升,但建模效果的影响也会变大。所以FATE这个阶段还没有用到差分机制。
● Q5:
1.7版本什么时候在GitHub开源 ?
● A5:
当前已处于测试收尾阶段,预计11月开源。
● Q6:
FATE可以直接做多方安全计算吗 ?
● A6:
FATE框架除了提供多种联邦模型外,也提供了多种多方安全计算协议供用户使用,是可以直接做多方安全计算的。
● Q7:
刚才提到check point预测,是可以把模型每轮迭代的模型都预测出来,方便进行对比吗?
● A7:
是的,我们的架构师在会议上也分享了checkpoint 的相关知识。用户可以通过deploy指令去生成不同迭代轮次的预测模型,然后进行预测。
● Q8:
横向模型训练好了可以迁移出来到其他系统使用吗?
● A8:
对于横向模型,FATE提供工具将模型转换成对应的Scikit-Learn、TensorFlow、Pytorch、LightGBM模型,然后用户可以部署到支持上述模型的在线推理系统,如KFServing,以支持在线推理。
● Q9:
啥时候可以从页面新建训练任务?
● A9:
FATEBoard主要定位是可读性的可视化操作,我们会把这个功能放在另外的一个可视化的系统。
● Q10:
权限管理和数据追朔,主要是为了怎么做/谁来做审计?
● A10:
商业化场景下,在构建一个的合作网络的时候,合作身份及权限管理是必不可少的,这是保护本方资源的一种手段,如数据集资源、计算资源等。
数据追溯是指一份数据包括其衍生数据的完整使用记录,使用记录可以包含使用数据的作业、站点身份、角色、哪些算法组件等等,可以比较清晰的描述了数据流动的完整周期,用以满足各维度的安全审计。
● Q11:
审计功能可以再详细介绍下吗?有提供可视化过程和报表吗?
● A11:
审计是FATE会逐步加强的一个重要功能,当前1.7版本做了一些基础的信息收集工作,例如记录每个作业用到的数据集、数据集的来源父数据集等。