
数据处理
文章平均质量分 85
尚优未来
一点一滴,一花一叶,喜欢文学的程序员
展开
-
数据处理 001_关于CSV文件的操作
因为做项目的需要,所以边学边做对于csv文件的处理,也是对于数据预处理这部分的学习。操作需求分析:(1) 统计所有列数,生成所有序列,将t-1时刻的数值和var4其它时刻的数值列数提取出来,其它的列数据都删掉,这里的列数一共有561列,不相关的有561-@…%#&…¥&还是交给程序吧使用简单的for循环即可以哩!https://www.cnblogs.com/d...原创 2018-07-19 16:29:23 · 957 阅读 · 0 评论 -
机器学习 001_主成分分析Principal Component Analysis
一、预备知识点(1)均值描述的是样本集合的中间点。(2)标准差给我们描述的则是样本集合的各个样本点到均值的距离的平均值是多少,我们可以理解为平均值这个点“向心力”或者“凝聚力”的强弱。也可以理解为“波动性”……即标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。这里有一个点:就是标准差什么时候除以n,什么时候除以n-1如果计算一个数据集的标准差,就除以n;如果...原创 2018-07-19 16:27:14 · 277 阅读 · 0 评论 -
机器学习003_决策树
决策树优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配问题。适用数据类型:数值型和标称型。1.1 决策树的构造创建分支的伪代码函数CreateBranch():检测数据集中的每个子项是否属于同一分类:If so return 类标签Else 寻找划分数据集的最好特征 划分数据集 ...原创 2018-08-31 17:03:28 · 331 阅读 · 0 评论