
机器学习
矢頁
这个作者很懒,什么都没留下…
展开
-
数据预处理——中心化和标准化
1.什么是中心化和标准化? 中心化:所有数据之和为0 标准化:把数据的分布转化为正态分布 最后数据集变成均值为0,方差为1的分布。 计算过程如下: 处理前后的数据分布对比: 2.什么时候需要标准化?为什么需要? 当我们处理一个问题的时候需要用到各种各样的数据,然而他们的量级时常是不一样的,比如说在房价分析的时候,我们会有面积、地域、地价等等等等,面积这些都是几十几百,而地价这些都是百万级别的,...原创 2020-01-13 14:54:57 · 917 阅读 · 0 评论 -
机器学习笔记1——决策树算法(上)
一、概述 决策树是机器学习中比较经典的算法,跟我们日常使用的if-else的思想有些相似。 每层以不同的指标进行分类,并层层迭代,最后得到预测的结果。 而决定分到哪一类则是根据哪个属性用于分类最明显为依据。(可以用信息熵Entropy、信息增益Gain或基尼系数Gini等来度量。) 例如,我们一般看一个人的身份可以根据性别,年龄,长相,身材等等因素。在这个例子里,性别显然是最明显的区分要素,因此...原创 2019-12-12 09:52:40 · 579 阅读 · 0 评论