
特征工程入门与实践
zyuPp
你今日练习了吗?
展开
-
【特征工程入门与实践】【特征选择】
特征选择小总结选择的评价标准基于统计的特征选择皮尔逊相关系数Pearson假设检验基于模型的特征选择针对基于树的模型线性模型小提示小总结这章节介绍了特征选择的指标和方法,方法有很多,这里没有介绍到全部知识,不过可以引发到我们对特征选择的思考,主要围绕的思想就是如何找到最好的特征子集和模型参数使得预测性能达到更好选择的评价标准传统指标:分类的指标,如准确率、真阳性率、假阳性率等回归的指标:RMSE、平均绝对误差、R2R^2R2元指标模型拟合/训练所需要的时间拟合后的模型预测新实例的时原创 2020-06-05 11:31:14 · 531 阅读 · 0 评论 -
【特征工程入门与实践】【特征构建】
特征构建填充分类特征定性填充定量填充编码分类变量扩展数值特征文本的特征构建填充分类特征定性填充对于定性的列,我们可以计算最常见的类别用于填充X['city'].fillna(X['city'].value_counts().index[0])当然,我们不可能对于每一个列都这样写,我们需要建立机器学习流水线,构建自定义的转换器,一次性把数据转换好使用TransformerMixin作为基类,则自动实现fit_transform()函数from sklearn.base import T原创 2020-05-25 11:33:10 · 800 阅读 · 0 评论 -
【特征工程与实践】【特征增强:清洗数据】
特征增强:清洗数据识别数据中的缺失值开始查看缺失值处理缺失值的方法删除有害的行填充缺失值流水线上的填充缺失值(pipeline和Imputer)标准化和归一化z-score标准化min-max标准化行归一化受尺度影响的一些算法识别数据中的缺失值本章只处理定量特征,因为目前没有足够工具处理缺失的定性特征,特征构建那一章会解决这个问题。当获得一份数据集时,首先进行探索性分析,之后本书就对皮马印第安人糖尿病预测数据集进行EDA,画了一些直方图分析属性与目标值的关系,同时绘制相关矩阵,查看相关性系数。开始查原创 2020-05-21 15:38:25 · 568 阅读 · 0 评论 -
【特征工程入门与实践】【特征理解】
特征理解结构化与非结构化数据定量与定性数据数据的4个等级EDA与数据可视化描述性统计一、结构化与非结构化结构化数据一般以表格形式组织,行是观察值,列是特征非结构化数据不遵循标准组织结构的数据,通常是一团的,或只有一列。例如服务器日志和推文二、定量数据与定性数据定量数据本质上是数值,应该是衡量某样东西的数量。定性数据本质上是类别,应该是描述某样东西的性质。如:今天的降雨量是定量,今天的天气是晴天还是阴天是定性。数据可能同时是定量和定性,如餐厅评分,虽然是数值,原创 2020-05-19 15:50:25 · 715 阅读 · 0 评论