
ML特征工程
瑞行AI
这个作者很懒,什么都没留下…
展开
-
特征工程:连续数值v.s.离散类别的处理方法(二)
本文是学习数据科学家 Dipanjan Sarkar介绍特征工程的博客翻译文。 数值型数据是指连续型数据,离散型数据表示不同类目。整数和浮点数是连续型数值数据中最常见也是最常使用的数值型数据类型。即使数值型数据可以直接输入到机器学习模型中,仍需要在建模前设计与场景、问题和领域相关的特征。(一)连续型数值数据的特征工程处理方法原始特征是直接从数据集中得到,没有额外的操作或处理。导出特征原创 2018-01-24 18:26:57 · 22021 阅读 · 0 评论 -
特征工程:特征生成,特征选择(三)
特征生成特征工程中引入的新特征,需要验证它确实能提高预测得准确度,而不是加入一个无用的特征增加算法运算的复杂度。1. 时间戳处理时间戳属性通常需要分离成多个维度比如年、月、日、小时、分钟、秒钟。但是在很多的应用中,大量的信息是不需要的。比如在一个监督系统中,尝试利用一个’位置+时间‘的函数预测一个城市的交通故障程度,这个实例中,大部分会受到误导只通过不同的秒数去学习趋势,其实是不合理的原创 2018-01-26 10:54:41 · 19815 阅读 · 0 评论 -
特征工程:数据处理,模型训练集锦(一)
本文是长期学习总结笔记,文中图片摘自寒小阳老师上课讲义。数据格式化数据量不大,可以存文本,数据库 数据量大,放集群hadoop上:hive表,hdfs文件数据清洗数据缺省如果缺值的样本占总数比例极高,我们可能就直接舍弃了,作为特征加入的话,可能反倒带入noise,影响最后的结果了如果缺值的样本适中,而该属性非连续值特征属性(比如说类目属性),那就把Na原创 2017-11-27 02:34:27 · 6844 阅读 · 0 评论