用转换器抽取特征

特征抽取在数据挖掘中至关重要,它对结果的影响往往超过算法本身。本文以年收入预测为例,介绍如何从Adult数据集创建和选择特征,如Hours-per-week、Education-Num等,并探讨特征创建模式,包括连续、序数和类别型特征的转换。通过VarianceThreshold等转换器减少噪声和提高模型可读性,同时展示了SelectKBest等方法用于选择单变量特征,以提高预测准确率。

特征抽取

特征抽取是数据挖掘任务为重要的一个环节,一般而言,它对终结果的影响要高过数据挖掘算法本身。不幸的是,关于怎样选取好的特征,还没有严格、快捷的规则可循,其实这也是数据挖掘科学更像是一门艺术的所在。创建好的规则离不开直觉,还需要专业领域知识和数据挖 掘经验,光有这些还不够,还得不停地尝试、摸索,在试错中前进,有时多少还要靠点运气。

不是所有的数据集都是用特征来表示的。数据集可以是一位作家所写的全部书籍,也可以是1979年以来所有电影的胶片,还可以是馆藏的一批历史文物。

我们可能想对以上数据集做数据挖掘。对于作家的作品,我们想知道这位作家都写过哪些主题;对于电影,我们想知道女性形象是怎么塑造的;对于文物,我们想知道它们是何方产物。我们没办法把实物直接塞进决策树来得到结果。

只有先把现实用特征表示出来,才能借助数据挖掘的力量找到问题的答案。特征可用于建模, 模型以机器挖掘算法能够理解的近似的方式来表示现实。因此可以说,模型描述了客观世界中对 象的某些方面,是它的一个简化版本。举例来说,象棋就是对过往战事简化后得到的一种模型。

特征选择的另一个优点在于:降低真实世界的复杂度,模型比现实更容易操纵。实物的复杂性对目前的算法而言过于复杂,我们退而求其次,使用更为简洁的模型来表示实物。

我们应该始终关注怎么用模型来表示现实,要多考虑数据挖掘的目标,而不是轻率地用我们过去用过的特征。要经常想想我们的目标是什么。


年收入预测

这里,我们预测一个人年收入是否会多于5万美元。使用Adult数据集来为复杂现实世界建模。数据集的下载地址:http://archive.ics.uci.edu/ml/datasets/Adult
点击Data Folder链接。下载adult.data和adult.names文件,在数据集文件夹(主目录下Data文件夹)中创建Adult文件夹,将这两个文件放到里面。

我们来导入数据:

import os
import pandas as pd
data_folder = os.path.join(os.path.expanduser("~"), "Data", "Adult")
adult_filename = os.path.join(data_folder, "adult.data")

adult = pd.read_csv(adult_filename, header=None, names=["Age", "Work-Class", "fnlwgt", "Education",
                                                        "Education-Num", "Marital-Status", "Occupation",
                                                        "Relationship", "Race", "Sex", "Capital-gain",
                                                        "Capital-loss", "Hours-per-week", "Native-Country",
                                                        
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Einstellung

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值