因果机器学习算法开源贡献解析

开源因果机器学习算法解析

最新推荐文章于 2025-12-03 17:31:48 发布

原创最新推荐文章于 2025-12-03 17:31:48 发布 · 344 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #开源 #因果推断 #开源算法 #程序那些事 #AIGC

某中心向DoWhy贡献新颖因果机器学习算法

我们很高兴宣布开源因果机器学习算法，这些算法是某中心多年在图因果模型研究上的成果。除了常规的效应估计外，这些算法支持各种复杂因果查询，包括但不限于异常值和分布变化的根因分析、因果结构学习以及因果结构诊断。内部已应用于从供应链到某中心云服务的多个团队。

在与某机构的共同努力下，我们还创建了名为PyWhy的新GitHub组织。PyWhy作为DoWhy的新家，这是某机构的因果机器学习库，我们正将算法合并其中。DoWhy是GitHub上最受欢迎的因果性库之一。某中心和某机构很高兴与DoWhy用户和贡献者社区合作。

图因果模型

大多数现实世界系统，无论是分布式计算系统、供应链系统还是制造过程，都可以用可能相互施加因果影响的变量来描述。

以由许多不同Web服务组成的微服务架构为例。网站加载时间增加的原因是什么？是后端数据库慢？负载均衡器故障？还是网络缓慢？

现有因果性库（包括DoWhy）专注于各种类型的效应估计，其总体目标是识别干预对某些目标变量的影响。在微服务架构的情况下，它们会帮助回答诸如“如果更改缓存服务配置，会改善还是恶化网站加载时间？”等问题。

我们的贡献通过利用图因果模型的力量补充了DoWhy的现有功能集。GCM是由图灵奖得主Judea Pearl开发的形式化框架，用于建模系统中变量之间的因果关系。GCM的关键组成部分是因果图，它直观地表示观察变量之间的因果关系，箭头从原因指向结果。

因果图中的每个变量都有自己的因果机制，描述其值如何从其父代的值生成。我们可以训练概率模型来学习这些因果机制，并用它们将异常事件或机制变化归因于特定节点。这种对机制贡献的分解是我们新颖根因分析算法的核心思想。

例如，在上述微服务架构中，我们可能意外部署有缺陷的服务，该服务使用次优SQL查询从数据库获取数据，从而增加网站延迟。使用我们称为“分布变化归因”的功能，我们可以识别有缺陷的服务。

但GCM能做的更多：它们可用于计算干预效果、估计反事实、计算节点对其后代的直接和内在影响，或将异常归因于潜在的上游根因。通过发布我们的算法，我们希望使这些工具对更广泛的研究人员和实践者可用，并帮助推进围绕GCM的科学方法。

PyWhy

对于效应估计，DoWhy已经使用两个最流行的因果推断科学框架——图因果模型和潜在结果——并将它们组合在一个库中。通过我们的贡献，我们希望进一步推动框架及其专用研究社区之间的协同作用。

但我们的长期愿景超越DoWhy、潜在结果和GCM。这体现在我们创建PyWhy的努力以及帮助指导这个新GitHub组织方向的承诺中。我们欢迎其他人加入我们的努力并成为社区的一部分。

我们对PyWhy的希望和雄心——如其使命所述——是“构建一个因果机器学习开源生态系统，推动技术进步并使其对实践者和研究人员可用。我们构建和托管可互操作的库、工具和其他资源，涵盖各种因果任务和应用，通过基础因果操作的通用API和端到端分析过程的关注连接起来。”

因此，如果您是研究因果机器学习问题的科学家或对其感到好奇，请访问py-why.github.io/dowhy/gcm了解DoWhy中新GCM功能的更多信息，或在github.com/py-why/dowhy上浏览源代码。

如果您是因果机器学习库的所有者，并认为您的库适合PyWhy，请访问github.com/py-why了解这个新组织的更多信息，或在Discord上与我们交谈。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）