
python
文章平均质量分 80
njaumj
没有
展开
-
机器学习实战+第三章_决策树
本章采用的是ID3算法。通过计算香农熵来确定最佳特征(bestFeature),再通过最佳特征将树划分成子树,递归的调用createTree函数。 优缺点: 可视化非常好 无法处理数值型数据 可能出现过度匹配的现象,可以通过剪枝了缓解 注明: 书里面的代码时用的python2,我是3.6版本,所以有些地方会有出入。 其次,关于treePlotter模块,xOff和偏移量的公式我进行了原创 2017-03-25 08:23:06 · 702 阅读 · 0 评论 -
机器学习实战+第二章_k-近邻算法
k-近邻算法(kNN)很好理解。 伪码: 1,计算要预测的点与训练集中各点的距离,距离为各点每列之差的平方求和再开根 2,对所求距离排序 3,选取距离最小的前k个点 4,统计这k个点对应的label的频数 5,根据频数对label进行排序,频数最高的label即作为这个点预测的label 性能: 如在手写识别中,每次距离的计算要进行1024个浮点运算,时间开销很大。 其它方面暂不原创 2017-03-17 08:48:52 · 302 阅读 · 0 评论 -
机器学习实战+第四章_朴素贝叶斯
相比较与kNN,计算量已经大大下降。因为kNN每次进行预测,都要将预测的instance与训练集中所有例子进行计算。而bayes只需要记录词向量中每个词的权重即可。 假设文本里每个词的出现概率是独立的,与文本中的其它词无关。 对于极小数的相乘,采用了取对数的方法保留精度。 可以采用停用词表或remove高频词来进行优化。 ''' p(A|B)=p(B|A)P(A)/P(B) 条件原创 2017-04-13 09:11:25 · 706 阅读 · 0 评论 -
机器学习实战+第五章_logistic 回归
这一章的话我认为源码中的随机梯度上升 函数 stocGradeAscent1() 有点个小问题。 第一,学习率过大,导致分类的错误率反而不如没改进的 stocGradeAscent0() 高,对此我对学习率进行了调整。 第二,随机的有问题。源码中dataMat里index越小的样例出现的频率高,这个有违随机的初衷。对此我进行了改进。 第三,stocGradeAscent1 相较 stocGr原创 2017-04-16 15:51:12 · 301 阅读 · 0 评论 -
python import
---分割线--- 比对这两张图,有几点结论: 1.show函数中的foo变量的名称查询只在原始命名空间(定义它的imptee.py文件中)进行。或者说,show函数foo变量名称到对象的映射由原始命名空间决定。 2.必须通过完整的标识符名称(句点属性标识,这里是imptee.foo)才能对原始命名空间(imptee.py中)的foo变量进行修改。...原创 2018-12-01 20:07:38 · 151 阅读 · 0 评论