
机器学习
文章平均质量分 78
heatn
从零开始做Data Science
python学习中
展开
-
Python实现k-近邻算法
1、分类器实现 2、文档处理,将tidy data(数据清洗部分本文不做说明): 3、数据归一化,将不同取值范围的特征值转化为0到1的范围,也可以根据不同权重进行分配,以下为统一转化为0到1范围的代码: 4、分类器检测,kNN算法是机器学习中最简单的,错误率通常较高,需要进行检测后才能使用分类器中的训练样本:原创 2015-03-18 10:09:58 · 1163 阅读 · 0 评论 -
Python实现决策树_ID3算法
决策树: ID3算法: 1、香农熵: 如果待分类的事务可能划分在多个分类中,则 x i 的信息定义为:,其中p( xi )选择该分类的概率。 熵定义为信息的期望值,计算公式为:,当熵越高时,说明不同类型的数据越多,数据集集合无序程度越高。 选择dataSet数据集中最后一项分类(featVec[-1])的香农熵计算,代码实现如下: import math原创 2015-04-15 16:38:08 · 2896 阅读 · 1 评论