14、图数据与时间戳数据处理:特征工程探索

图与时间戳数据特征工程

图数据与时间戳数据处理:特征工程探索

在机器学习领域,图数据和时间戳数据的处理是极具挑战性和重要性的任务。本文将深入探讨图数据的特征选择与最终特征集的确定,以及时间戳数据在WikiCities和WikiCountries数据集上的应用与分析。

1. 图数据特征处理

在处理图数据时,特征的选择和评估至关重要。通过随机交换的方式对特征进行扰动,若在30%的扰动率下(每次交换会影响两个实例,总共进行0.15×|训练集大小|次交换),均方根误差(RMSE)增加了0.07%,且0.07大于0.05,那么可以认为该特征带来的风险大于其价值,不值得使用。

为了全面实现特征选择的概念,需要在删除每个特征后重新训练整个系统。然而,消融和扰动操作的计算成本较高,理想的实现方式需要采用束搜索(可能由特征效用指标指导)和多进程处理。

在实际应用中,最初运行的算法提出了一些假设,例如删除美国或印度作为特征。但这些特征实际上包含了丰富的信息,因为属于特定国家是该领域最稳定的属性之一。因此,决定不使用该算法的提议结果。

基于此,我们可以构建一个“保守”特征集,即非分类特征加上包含国家值的分类特征。这个特征集在Cell 32中计算得出,RMSE为0.3578,仅包含98个特征。

最终,我们得到了两个特征集:
- 高性能特征集 :包含577个特征,使用TRE和所有其他特征。该特征集的性能大致相当于四向分割的RMSE,能够区分小村庄、小镇、小城市和大城市。
- 保守特征集 :包含98个特征,RMSE相对较差。但希望在与其他数据源混合时,它能够超越高性能特征集。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值