
Machine Learning
文章平均质量分 80
njaumj
没有
展开
-
机器学习实战+第三章_决策树
本章采用的是ID3算法。通过计算香农熵来确定最佳特征(bestFeature),再通过最佳特征将树划分成子树,递归的调用createTree函数。优缺点:可视化非常好无法处理数值型数据可能出现过度匹配的现象,可以通过剪枝了缓解注明:书里面的代码时用的python2,我是3.6版本,所以有些地方会有出入。其次,关于treePlotter模块,xOff和偏移量的公式我进行了原创 2017-03-25 08:23:06 · 699 阅读 · 0 评论 -
机器学习实战+第二章_k-近邻算法
k-近邻算法(kNN)很好理解。伪码:1,计算要预测的点与训练集中各点的距离,距离为各点每列之差的平方求和再开根2,对所求距离排序3,选取距离最小的前k个点4,统计这k个点对应的label的频数5,根据频数对label进行排序,频数最高的label即作为这个点预测的label性能:如在手写识别中,每次距离的计算要进行1024个浮点运算,时间开销很大。其它方面暂不原创 2017-03-17 08:48:52 · 301 阅读 · 0 评论 -
机器学习实战+第四章_朴素贝叶斯
相比较与kNN,计算量已经大大下降。因为kNN每次进行预测,都要将预测的instance与训练集中所有例子进行计算。而bayes只需要记录词向量中每个词的权重即可。假设文本里每个词的出现概率是独立的,与文本中的其它词无关。对于极小数的相乘,采用了取对数的方法保留精度。可以采用停用词表或remove高频词来进行优化。'''p(A|B)=p(B|A)P(A)/P(B) 条件原创 2017-04-13 09:11:25 · 702 阅读 · 0 评论 -
机器学习实战+第五章_logistic 回归
这一章的话我认为源码中的随机梯度上升 函数 stocGradeAscent1() 有点个小问题。第一,学习率过大,导致分类的错误率反而不如没改进的 stocGradeAscent0() 高,对此我对学习率进行了调整。第二,随机的有问题。源码中dataMat里index越小的样例出现的频率高,这个有违随机的初衷。对此我进行了改进。第三,stocGradeAscent1 相较 stocGr原创 2017-04-16 15:51:12 · 300 阅读 · 0 评论 -
CS229 SVM 推导和使用心得
这两天要用到SVR的几何解释,特地又翻了CS229 lecture3的笔记。特此记录一下我理解的思路。从logistic regression引入,说明我们应该更关注于离separating hyperplane近的点,进而引入了margin的概念。 我们想让margin尽量的大,但最直接的functional margin可以通过缩放ω和b来任意控制。这里我们当然可以固定ω 2-nor...原创 2018-12-16 22:00:22 · 650 阅读 · 0 评论