机器学习03-特征工程（一）--＞特征抽取

番茄虾滑

于 2022-10-22 02:23:32 发布

阅读量639

点赞数 1

分类专栏：笔记文章标签：机器学习 python pandas

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_46348988/article/details/127438362

版权

目录

1.1 特征工程
- 1.1.1 意义及内容
- 1.1.2 特征工程的位置与数据处理的比较
1.2 特征抽取
- 1.2.1 内容
- 1.2.2 特征提取API
1.3 字典特征提取

1.1 特征工程

1.1.1 意义及内容

“数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已”——吴恩达

特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程，在很大程度上影响着机器学习的效果

包括了：

特征抽取
特征预处理
特征降维

1.1.2 特征工程的位置与数据处理的比较

pandas:数据清洗、数据处理
sklearn:特征工程

1.2 特征抽取

1.2.1 内容

将任意数据（包括文本或图像）转换为可用于机器学习的数字特征，以便于计算机更好地理解数据

包括：

字典特征提取（特征离散化）
文本特征提取
图像特征提取（深度学习介绍）

1.2.2 特征提取API

sklearn.feature_extraction

1.3 字典特征提取

1.3.1 目的

对字典数据进行特征值化

1.3.2 方法

sklearn.feature_extraction.DictVectorizer(sparse=True,...)
- DictVectorizer.fit_transform(X) X:字典或者包含字典的迭代器（本例中是包含了字典的列表）返回值，返回sparse矩阵（稀疏矩阵）
- DictVectorizer.inverse_transform(X)X:array数组或者sparse矩阵返回值：转换之前数据格式
- DictVectorizer.get_feature_names() 返回特征名称（表头）
  - 例如：有一个有三个样本两个特征的字典

[{
   'child':'小红',

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。