
机器学习之数据处理
文章平均质量分 95
夏天7788
知行合一
展开
-
转:特征工程(sklearn)
from:https://www.iteye.com/blog/weishiym-2395442一、特征工程是什么 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面: 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择...转载 2021-03-17 15:20:27 · 312 阅读 · 0 评论 -
数据缺失的处理方法
https://www.zhihu.com/question/26639110目前有三种处理方法:1. 用平均值、中值、分位数、众数、随机值等替代。效果一般,因为等于人为增加噪声。2. 用其他变量做预测模型来算出缺失变量。效果比1方法略好。有一个根本缺陷,如果其他变量和缺失变量无关,则预测结果无意义。如果预测结果相当准确,则又说明这个变量是没有必要加入建模的,一般情况,介于两者之间。转载 2017-08-29 12:29:30 · 1627 阅读 · 0 评论 -
数据部分
1. 样本在时间轴上的采样频率,交易数据和市值数据可以是周度,而基本面季度频率。2. 标签设定,预测未来一周,一月,一季,半年或是一年。其准确率,可以表明对应数据的作用时间。如,基本面的作用时间显然比交易数据作用时间长。3. 与标签相关的数据考虑到的全收集,考虑到频度的一致性,以及研究对象的全覆盖,目前比较全的是交易和市值,基本面的财务。4. 对于研究对象未完全覆盖的数据,也可收集,挖原创 2017-08-14 13:25:41 · 286 阅读 · 0 评论 -
Andrew Ng的 Machine Learning 读书笔记 Lecture 4(数据归一化,调参)
from:http://blog.youkuaiyun.com/lujiandong1/article/details/44702297数据归一化: 归一化化定义:我是这样认为的,归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。 方法有如下: 1、线性函数转转载 2017-05-31 13:19:50 · 473 阅读 · 0 评论 -
数据偏斜的处理
转自:http://wenku.baidu.com/link?url=g2guKl_TnsP-emCmc_eG7zSAhxMIeWzoPcLcygkJ6BDtOSz5zggDqIPLbIRZDCaXvoDZsC3BKsWrgf4u_gmfmwZzrEtRq3Pte3rZSUTrA0C对于数据偏斜问题的处理主要分类两大类:基于算法和基于数据,增强少数类别对算法的影响程度,提高算法对少数类转载 2017-01-25 15:50:55 · 2391 阅读 · 0 评论 -
几种归一化方法(Normalization Method)python实现
from:https://blog.youkuaiyun.com/kryolith/article/details/39770187数据归一化问题是数据挖掘中特征向量表达时的重要问题,当不同的特征成列在一起的时候,由于特征本身表达方式的原因而导致在绝对数值上的小数据被大数据“吃掉”的情况,这个时候我们需要做的就是对抽取出来的features vector进行归一化处理,以保证每个特征被分类器平等对待。下面...转载 2018-09-27 11:29:30 · 28844 阅读 · 0 评论