图数据与时间戳数据处理:特征工程探索
在机器学习领域,图数据和时间戳数据的处理是极具挑战性和重要性的任务。本文将深入探讨图数据的特征选择与最终特征集的确定,以及时间戳数据在WikiCities和WikiCountries数据集上的应用与分析。
1. 图数据特征处理
在处理图数据时,特征的选择和评估至关重要。通过随机交换的方式对特征进行扰动,若在30%的扰动率下(每次交换会影响两个实例,总共进行0.15×|训练集大小|次交换),均方根误差(RMSE)增加了0.07%,且0.07大于0.05,那么可以认为该特征带来的风险大于其价值,不值得使用。
为了全面实现特征选择的概念,需要在删除每个特征后重新训练整个系统。然而,消融和扰动操作的计算成本较高,理想的实现方式需要采用束搜索(可能由特征效用指标指导)和多进程处理。
在实际应用中,最初运行的算法提出了一些假设,例如删除美国或印度作为特征。但这些特征实际上包含了丰富的信息,因为属于特定国家是该领域最稳定的属性之一。因此,决定不使用该算法的提议结果。
基于此,我们可以构建一个“保守”特征集,即非分类特征加上包含国家值的分类特征。这个特征集在Cell 32中计算得出,RMSE为0.3578,仅包含98个特征。
最终,我们得到了两个特征集:
- 高性能特征集 :包含577个特征,使用TRE和所有其他特征。该特征集的性能大致相当于四向分割的RMSE,能够区分小村庄、小镇、小城市和大城市。
- 保守特征集 :包含98个特征,RMSE相对较差。但希望在与其他数据源混合时,它能够超越高性能特征集。
图与时间戳数据特征工程
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



