FeatureTools 原理整理

最新推荐文章于 2025-06-06 09:01:43 发布

原创

最新推荐文章于 2025-06-06 09:01:43 发布 · 4.2k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文深入探讨FeatureTools的原理，介绍实体和实体集的概念，以及Deep Feature Synthesis算法如何创建Entity Feature、Direct Feature和Relational Feature。通过forward和backward关系解释特征衍生，揭示自动化特征工程的内在逻辑。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

感慨于FeatureTools的强大功能，由于目前FeatureTools文档较少，在此对FeatureTools的原理进行梳理。

首先理解两个重要的概念：实体和实体集

对于机器学习任务的建模过程（包括一些线上比赛或者工业领域的推荐系统等等），通常是将多张表拼凑成一张表，然后进行数据清洗，特征提取等等，而FeatureTools将实体作为对象，而实体就类似于表。实体集就可以理解为一组实体，以及实体之间存在的关系。例如：对于预测用户的点击行为，提供的数据集包括用户的基本信息表，用户的订单行为表，产品信息表等等。

FeatureTools采用Deep Feature Synthesis算法，其主要合成三种新的特征：Entity Feature，Direct Feature，Relational Feature

Entity Feature表示基于实体自身衍生出来的新特征（比如用户基本信息表，利用用户的体重和身高衍生出体重指数的特征）
Direct Feature和Relational Feature都是基于实体之间的关系衍生出新特征

为了说明如何衍生Direct Feature和Relational Feature，论文中给出了forward和backward的概念（主要用于描述relationship）。

forward：表示实体E1中的实例关于实体E2中的实例存在唯一的对应关系，即多对一的关系和一对一的关系；如一笔订单只属于一个用户或者多笔订单属于一个用户

backward：表示实体E1中的实例与实体E2中的多个实例（论文中给出的是“所有实例”，但其实不好理解“所有实例”的概念）存在对应关系；即一对多的关系；如一个用户对应多笔消费行为

（注：关于forward关系和backward关系的理解，在特征衍生时，往往会基于特征之间的领域关系去进行衍生，而Deep Feature Systhesis算法正是借助这种思想；如用户A在1月份有10笔消费，用户信息和消费信息分别在用户基本信息表和消费信息表中，而要衍生出用户A在1月份的总

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。