
特征工程
文章平均质量分 85
暂无
「已注销」
这个作者很懒,什么都没留下…
展开
-
《特征工程入门与实践》--特征理解
特征理解《特征工程入门与实践》–特征理解结构化(有组织)数据:可以分成观察值和特征的数据,一般以表格的形式组织(行是观察值,列是特征)。非结构化(无组织)数据:作为自由流动的实体,不遵循标准组织结构(例如表格)的数据。通常,非结构化数据在我们看来是一团数据,或只有一个特征(列)。定量数据本质上是数值,应该是衡量某样东西的数量。定性数据本质上是类别,应该是描述某样东西的性质。# 导入探索性数据分析所需的包# 存储表格数据import pandas as pd# 数学计算包import nu原创 2021-02-16 13:49:53 · 532 阅读 · 1 评论 -
《特征工程入门与实践》--特征增强
特征增强:清洗数据特征增强识别数据中的缺失值Seaborn可视化工具:删除有害的行填充缺失值在机器学习流水线中填充值标准化和归一化zzz分数标准化min-max标准化行归一化《特征工程入门与实践》–特征增强识别数据中的缺失值# 导入探索性数据分析所需的包import pandas as pd # 存储表格数据import numpy as np # 数学计算包import matplotlib.pyplot as plt # 流行的数据可视化工具import seaborn as sns原创 2021-02-16 13:47:25 · 972 阅读 · 1 评论 -
《特征工程入门与实践》--特征构建
特征构建检查数据集自定义分类填充器编码分类变量定序等级的编码将连续特征分箱扩展数值特征针对文本的特征构建词袋法CountVectorizerTF-IDF向量化器我们会探讨如下主题:检查数据集;填充分类特征;编码分类变量;扩展数值特征;针对文本的特征构建。检查数据集为了进行演示,本章会使用我们自己创建的数据集,以便展示不同的数据等级和类型。我们先设置数据的DataFrame。用Pandas创建要使用的DataFrame,这也是Pandas的主要数据结构。这样做的优点是可以用很多属性和方法原创 2021-02-15 23:38:04 · 929 阅读 · 0 评论 -
《特征工程入门与实践》--特征选择
特征选择元指标特征选择的类型:基于统计的特征选择皮尔逊相关系数假设检验基于模型的特征选择使用机器学习选择特征针对基于树的模型线性模型和正则化《特征工程入门与实践》 -特征选择元指标元指标是指不直接与模型预测性能相关的指标,它们试图衡量周遭的性能,包括:模型拟合/训练所需的时间;拟合后的模型预测新实例的时间;需要持久化(永久保存)的数据大小。为了跟踪这些指标,我们可以创建一个get_best_model_and_accuracy函数以评估若干模型,同时精细到可以提供每个模型的指标原创 2021-02-15 19:40:43 · 863 阅读 · 0 评论 -
《特征工程入门与实践》--- 特征学习
《特征工程入门与实践》— 特征学习以AI促AI吐血整理《特征工程入门与实践》这本书之前已经看了一遍,这次打算从总结的角度从后往前再读此书,重点在梳理框架,区分不同,标注必须要掌握的基本代码。一、首先是特征理解,从以下几点切入特征理解:结构化数据与非结构化数据数据的四个等级识别数据的缺失值探索性数据分析描述性统计数据可视化二、接着是特征增强:清洗数据对非结构化数据进行结构化数据填充–填充缺失数据数据归一化标准化(z分数标准化)min-max标准化L1和L2正则化(将数原创 2021-02-13 01:30:42 · 1956 阅读 · 1 评论 -
数据标准化与归一化探索
About Feature Scaling and Normalization对特征的标准化使得特征重新度量(rescaled)具有性质均值为 μ=0\mu=0μ=0以及标准方差为 σ=1\sigma=1σ=1变换的形式为:z=x−μσz=\frac{x-\mu}{\sigma}z=σx−μ对特征进行标准化,使其以0为中心,标准差为1,这不仅在我们比较不同单位的测量值时很重要,而且也是很多机器学习算法的一般要求。直观上,我们可以认为梯度下降是一个突出的例子(一种优化算法,常用于logis.原创 2020-12-20 14:15:09 · 288 阅读 · 0 评论