某中心向DoWhy贡献新颖因果机器学习算法
我们很高兴宣布开源因果机器学习算法,这些算法是某中心多年在图因果模型研究上的成果。除了常规的效应估计外,这些算法支持各种复杂因果查询,包括但不限于异常值和分布变化的根因分析、因果结构学习以及因果结构诊断。内部已应用于从供应链到某中心云服务的多个团队。
在与某机构的共同努力下,我们还创建了名为PyWhy的新GitHub组织。PyWhy作为DoWhy的新家,这是某机构的因果机器学习库,我们正将算法合并其中。DoWhy是GitHub上最受欢迎的因果性库之一。某中心和某机构很高兴与DoWhy用户和贡献者社区合作。
图因果模型
大多数现实世界系统,无论是分布式计算系统、供应链系统还是制造过程,都可以用可能相互施加因果影响的变量来描述。
以由许多不同Web服务组成的微服务架构为例。网站加载时间增加的原因是什么?是后端数据库慢?负载均衡器故障?还是网络缓慢?
现有因果性库(包括DoWhy)专注于各种类型的效应估计,其总体目标是识别干预对某些目标变量的影响。在微服务架构的情况下,它们会帮助回答诸如“如果更改缓存服务配置,会改善还是恶化网站加载时间?”等问题。
我们的贡献通过利用图因果模型的力量补充了DoWhy的现有功能集。GCM是由图灵奖得主Judea Pearl开发的形式化框架,用于建模系统中变量之间的因果关系。GCM的关键组成部分是因果图,它直观地表示观察变量之间的因果关系,箭头从原因指向结果。
因果图中的每个变量都有自己的因果机制,描述其值如何从其父代的值生成。我们可以训练概率模型来学习这些因果机制,并用它们将异常事件或机制变化归因于特定节点。这种对机制贡献的分解是我们新颖根因分析算法的核心思想。
例如,在上述微服务架构中,我们可能意外部署有缺陷的服务,该服务使用次优SQL查询从数据库获取数据,从而增加网站延迟。使用我们称为“分布变化归因”的功能,我们可以识别有缺陷的服务。
但GCM能做的更多:它们可用于计算干预效果、估计反事实、计算节点对其后代的直接和内在影响,或将异常归因于潜在的上游根因。通过发布我们的算法,我们希望使这些工具对更广泛的研究人员和实践者可用,并帮助推进围绕GCM的科学方法。
PyWhy
对于效应估计,DoWhy已经使用两个最流行的因果推断科学框架——图因果模型和潜在结果——并将它们组合在一个库中。通过我们的贡献,我们希望进一步推动框架及其专用研究社区之间的协同作用。
但我们的长期愿景超越DoWhy、潜在结果和GCM。这体现在我们创建PyWhy的努力以及帮助指导这个新GitHub组织方向的承诺中。我们欢迎其他人加入我们的努力并成为社区的一部分。
我们对PyWhy的希望和雄心——如其使命所述——是“构建一个因果机器学习开源生态系统,推动技术进步并使其对实践者和研究人员可用。我们构建和托管可互操作的库、工具和其他资源,涵盖各种因果任务和应用,通过基础因果操作的通用API和端到端分析过程的关注连接起来。”
因此,如果您是研究因果机器学习问题的科学家或对其感到好奇,请访问py-why.github.io/dowhy/gcm了解DoWhy中新GCM功能的更多信息,或在github.com/py-why/dowhy上浏览源代码。
如果您是因果机器学习库的所有者,并认为您的库适合PyWhy,请访问github.com/py-why了解这个新组织的更多信息,或在Discord上与我们交谈。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
开源因果机器学习算法解析
2万+

被折叠的 条评论
为什么被折叠?



