ML - 特征工程

最新推荐文章于 2022-08-08 08:44:22 发布

原创

最新推荐文章于 2022-08-08 08:44:22 发布 · 526 阅读

1 ·

CC 4.0 BY-SA版权

1.数据预处理

1.1结构化数据

1.1.1缺失值处理

1.1.1.1直接删除

如果数据不重要且缺失值不多

1.1.1.2补齐

如果数据重要且缺失值不多，想办法搞来

1.1.1.3统计值填充

统计值一般泛指平均值、中位数、众数、最大值、最小值等，具体使用哪一种统计值要根据具体问题具体分析。
比如，填工龄，对年龄分箱求平均值填充

1.1.1.4不处理

缺失值自成一类

1.1.1.5向前向后填充

1.1.1.6插值法填充

1.多项式插值
2.lagrange插值

1.1.1.7预测值填充

1.1.2离群点处理

1.1.2.1标准差法

假设数据服从正态分布，3个标准差之外的数据为离群点，剔除

1.1.2.2MAD法

概念：又称为绝对值差中位数法，是一种先需计算所有因子与中位数之间的距离总和来检测离群值的方法，适用大样本数据

1.1.2.3箱型图法

1.1.3数据去量纲

1.1.3.1极差标准化

1.1.3.2极大值标准化

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

G____G

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

特征工程之数据分箱、Nominal特征编码、Ordinal分类特征编码、特征交叉组合、特征差分

data+scenario+science+insight

06-19

698

特征工程之数据分箱、Nominal特征编码、Ordinal分类特征编码、特征交叉组合、特征差分目录特征工程之数据分箱、Nominal特征编码、Ordinal分类特征编码、特征交叉组合、特征差分数据分箱 Nominal特征编码 Ordinal分类特征编码特征交叉组合特征差分数据分箱在数值型数据的离散化处理过程中，我们经常会将年龄进行分箱（例如，儿童、少年、青年、中年、老年等），因为不同年龄段人群之间的消费习惯、行为模式差异很大。但是有的问题中又只需要将数据离散为两个区间，例

机器学习特征工程之特征构造：构造统计特征

data+scenario+science+insight

08-27

1533

机器学习特征工程之特征构造：构造统计特征数据决定了模型预测的上限，而算法只是在逼近这个极限而已。这里的数据指的就是经过特征工程所得到的数据。机器学习的核心就是特征构造。好的数据是从原始数据抽取出来对预测结果最有用的信息。好的特征应该做到少而精。特征工程就是指把原始数据转变为模型训练数据的过程。一般认为特征工程包括特征构建、特征提取、特征选择三部分。特征构造需要一定的经验，特征提取强调通过特征转换得到一组特征，而特征选择是从特征集合中挑选一组特征作为特征子集。两者都能帮助减少数据冗余和特征维度。特

1 条评论您还未登录，请先登录后发表或查看评论

ML特征工程

Carroll的博客

09-08

1014

文章目录1. 特征工程有哪些？1.1 数据处理异常值处理缺失值处理1.2 特征归一化线性函数归一化（Min-Max Scaling）零均值归一化（Z-Score Normalization）1.3 类别型特征序号编码独热编码(one-hot)二进制编码1.4 高维组合特征的处理1.5 文本表示模型词袋模型和N-gram模型主题模型词嵌入与深度学习模型1.6 数据分桶1.7 特征构造1.8 特征选择过滤式包裹式嵌入式PCA降维技术1.9 特征工程脑图2. 机器学习优化方法2.1 常用损失函数平方损失函数log

ML 特征工程

_金栋的博客

09-10

1475

''' 数据集下载链接:https://pan.baidu.com/s/1GiPu5A_9FIFOn7EveLHEzQ 密码:1582 ''' import numpy as np import pandas as pd import matplotlib.pyplot as plt import warnings import seaborn as sns import gc warning...

机器学习（ML）（二）——特征工程

weixin_46569877的博客

08-08

268

机器学习

【ML】特征工程简介以及7种常用方法（续更）

西瓜太郎

10-12

679

1 特征工程简介本质上说，呈现给算法的数据应该能拥有基本数据的相关结构或属性。当你做特征工程时，其实是将数据属性转换为数据特征的过程，属性代表了数据的所有维度，在数据建模时，如果对原始数据的所有属性进行学习，并不能很好的找到数据的潜在趋势，而通过特征工程对你的数据进行预处理的话，你的算法模型能够减少受到噪声的干扰，这样能够更好的找出趋势。但是，对于特征工程中引用的新特征，需要验证它的确提高了预测的准确度，而不是加入了一个无用的特征，不然只会增加算法运算的复杂度。好的特征甚至能够帮你实现使用简单的

【ML学习笔记】特征工程到底是什么？

weixin_39655021的博客

01-20

303

学习思路主要参考这篇文章http://www.cnblogs.com/jasonfreak/p/5448385.html，侵删只是花了半天的时间把文章中的程序重新敲了一遍，程序不长，遇到的一些问题和想法都记在了注释里，下面直接上代码。 #特征工程的基本步骤 #需要安装numpy、scipy、sklearn这三个包 #下面的很多语句都没有改变任何变量的内容，如果要看结果，应当取其返回值 ...

fe4ml-zh：[翻译]面向机器学习的特征工程

02-03

面向机器学习的特征工程协议：欢迎任何人参与和完善：一个人可以走的很快，但是一群人却可以走的更远目录九，回到特征：将它们放到一起负责人：562826179 免责声明 ApacheCN纯粹出于学习目的与个人兴趣翻译书...

ml-100k.zip

04-14

同时，也会进行特征工程，如创建用户和物品的嵌入向量，以便于在神经网络中进行训练。此外，通过划分训练集和测试集，可以评估模型的泛化能力并进行参数调优。总的来说，ml-100k数据集是一个珍贵的学习资源，它...

精选资源

ml-latest-small.rar

08-26

处理这种数据集时，我们需要进行预处理步骤，如数据清洗（去除异常值或缺失值）、特征工程（创建新特征，如用户平均评分或电影类型），以及数据划分（训练集、验证集、测试集的划分）。为了探索这个数据集，我们...

[译] 面向机器学习的特征工程-fe4ml-zh.zip

11-06

"面向机器学习的特征工程"（Fe4ML）是这个主题的一个深入探讨，尤其体现在中文资源"fe4ml-zh"中。本资源可能是一个翻译项目，旨在为中文读者提供关于特征工程的实践指导和理论知识。特征工程涉及将原始数据转换为...

精选资源

SCMA-ML-master_SCMA-ML-master_ML_morehsq_SCMA_

10-04

【标题】"SCMA-ML-master" 指的可能是...综上所述，"SCMA-ML-master"项目是一个结合了现代无线通信技术和机器学习的综合研究，涉及了多个领域的专业知识，对于通信工程和机器学习方向的研究人员都具有很高的学习价值。

【ML--05】第五课如何做特征工程和特征选择

赖德发的博客

07-14

2817

一、如何做特征工程？ 1.排序特征：基于7W原始数据，对数值特征排序，得到1045维排序特征 2. 离散特征：将排序特征区间化（等值区间化、等量区间化），比如采用等量区间化为1-10，得到1045维离散特征 3. 计数特征：统计每一行中，离散特征1-10的个数，得到10维计数特征 4. 类别特征编码：将93维类别特征用one-hot编码 5. 交叉特征：特征之间两两融合，x+y、x-y、x

特征工程（科大讯飞阿泽大佬share）

不再的blog

08-11

510

时序预测任务简介 2.特征工程常见操作（数据清洗，特征构造，特征筛选）数据清洗：提高数据质量，降低算法用错误数据建模的风险特征变换：模型无法处理或者不适合处理 a) 定性变量编码：Label Encoder；onehot encoder;distribution Encoder b)标准化和归一化（对于lr模型来说，但是xgb就不需要）：z分数标准化（标准正态分布），min-max归一化缺失值处理：减少不确定性和不可靠输出 a)不处理：少量样本缺失 b)删除：大量样本缺失 c)补全：（同类）均值/

ml课程：特征工程、面试题及相关案例代码

算法人生

11-24

2114

以下是我的学习笔记，以及总结，如有错误之处请不吝赐教。这篇文章主要介绍机器学习特征工程相关的内容，以及《百面机器学习》中相关高频面试题内容，最后还有相关的案例代码。特征工程（Feature engineering）：是对原始数据进行一系列工程处理，将其提炼为特征，作为输入供算法和模型使用。从本质上来讲，特征工程是一个表示和展现数据的过程。在实际工作中，特征工程旨在去除原始数据中的杂质和...

ML特征工程和优化方法（2万+字总结...持续补充中）

Carroll的博客

02-26

5239

1. 特征工程有哪些？特征工程，顾名思义，是对原始数据进行一系列工程处理，将其提炼为特征，作为输入供算法和模型使用。从本质上来讲，特征工程是一个表示和展现数据的过程。在实际工作中，特征工程旨在去除原始数据中的杂质和冗余，设计更高效的特征以刻画求解的问题与预测模型之间的关系。主要讨论以下两种常用的数据类型。结构化数据。结构化数据类型可以看作关系型数据库的一张表，每列都有清晰的定义，包...

通过案例来给你分享几个特征构造的方法

lsxxx2011的专栏

04-26

5620

特征构造特征构造常用方法统计值构造法连续数据离散化离散数据编码化函数变换法算术运算构造法特征构造「1. 概念及工作原理」概念：特征构造主要是产生衍生变量，所谓衍生变量是指对原始数据进行加...

数据挖掘笔记（3）——聚类、离群点分析

dananhai381的专栏

08-26

1万+

聚类基本概念聚类：将对象分成相似的类特征：不考虑数据的类标号，而是通过聚类产生新类标号评价：最大化类内相似性（similarity），最小化类间相似性。相似性需要定义，作为聚类的标准数据挖掘的要求可解释性发现任意形状的聚类处理不同类型属性的能力

数学统计--标准分数