python
文章平均质量分 63
flowertree花树
恰同学少年,风华正茂。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习day5 机器学习实战决策树的实现预测隐形眼镜类型
今天中午开始实现决策树ID3的实现,KNN的缺点是不能体现数据的意义,全部数据全部归一化,决策树能体现数据的意义,根据数据分类。先用一个一般的数据测试一下,隐形眼镜类型只不过是增加了一步从文件中提取数据这一步,其他步骤一模一样。用matplotlib图形化展示效果特别好,但是特别费劲,没有一些特别麻烦的函数,所以这里不再给出,时间问题没能整明白,参考《机器学习实战》。将在以后的学习原创 2016-03-15 22:25:46 · 490 阅读 · 0 评论 -
机器学习day16 机器学习实战Apriori算法进行关联分析
上一章学习了非监督学习的聚类,聚类算法可以将不同性质的分类分开。这两天学习了apriori算法进行关联分析,感觉是目前最难理解的一章了,并且书中还有个很坑爹的错误,作者存在很大的疏忽。Apriori算法关联分析:从大规模数据集中寻找物品间的隐含关系被称作关联分析或者关联规则学习。关联分析应用1:我们以前学习的是根据特性进行分类或者回归预测,并没有挖掘特性之间的关系,关联分析可以用于分析数据原创 2016-04-16 23:29:28 · 3422 阅读 · 1 评论 -
机器学习day11 机器学习实战重新理解决策树与C4.5
今天看了决策树的一个视频,比以前理解的更深了,《机器学习实战》书上说的还是太浅显,在这里记下自己重新理解的决策树。在使用决策树的时候,会出现一种情况,当因子很多的特性和因子少的特性相比。决策树选择会偏向因子多的特性,这样会出现过拟合的情况,提高我们的建树难度,树的分支会更多。原因:因为分类细的情况下,极限情况下有多少组样本就会有多少因子,这样分类过细,混乱程度小,香农熵也会很小,这样信息增原创 2016-03-28 13:27:16 · 358 阅读 · 0 评论 -
机器学习day15 机器学习实战聚类之k均值聚类算法
这两天学习了非监督学习的聚类算法,k均值聚类和优化版二分k均值聚类,最后在地图上实现一个聚类小应用。k均值聚类称为kmeans,是一种非监督学习的算法,下面写一下对监督学习和非监督学习的理解。监督学习:分为训练集和测试集,每个数据有不同的特性和标签,标签分为连续型或者标称型,我们通过一定的方法对训练集进行训练,总结出数据潜在的规律,对数据进行预测,连续性数据的预测称为回归,标称型数据的预测原创 2016-04-12 22:35:15 · 2806 阅读 · 1 评论 -
机器学习day14 机器学习实战树回归之CART与模型树
这几天完成了树回归的相关学习,这一部分内容挺多,收获也挺多,刚刚终于完成了全部内容,非常开心。树回归这一章涉及了CART,CART树称作(classify and regression tree) 分类与回归树,既可以用于分类,也可以用于回归。这正是前面决策树没有说到的内容,在这里补充一下。正好也总结一下我们学的3种决策树。ID3:用信息增益来选择特性进行分类,只能处理分类问题。缺点是往往原创 2016-04-08 22:28:22 · 2451 阅读 · 2 评论 -
python-list函数 append()和extend()的区别
list函数list.append(x) 则将x作为一个整体加入list的最后,无论list是几维list.extend(x) 则将x的内部加入到list最后,无论list是几维全是添加到最后,无论几维a = [1, 2, 3]b = [4, 5, 6]a.append(b)a = [1, 2, 3, [4, 5, 6]]a.extend(b)a = [1, 2原创 2016-03-15 12:17:35 · 279 阅读 · 0 评论 -
机器学习day1 python的安装及实现一个机器学习小应用
下定决心学习机器学习这个方向,刚刚买了两本书《统计学习方法》和《机器学习系统设计》,半个月后还有机器学习的招聘。。。逼到了绝路上啊。。。先是安装了python的环境,anaconda,下载地址https://www.continuum.io/downloads 。《机器学习系统设计》这本书第一章的例子http://www.gumpcs.com/index.php/archives/22原创 2016-03-01 09:43:10 · 317 阅读 · 0 评论 -
机器学习day10 机器学习实战logistic回归的原理理解
刚刚取饭的时候在路上突然懂了logistic的原理,很神奇。有个error值 如果改变了就朝着改变的方向修改w这个拟合参数 不改变的话就不改变w 因为error = lavels[i] - sigmoid(w * x)如果原来lavels[i]为1 sigmoid为0 则error为1 wei朝着lavels的方向变化 error为0则不改变 这样只是朝着向最佳拟合参数w的方向改变原创 2016-03-24 13:23:49 · 328 阅读 · 0 评论 -
机器学习day11 logistic回归的截距
tips:有个很重要的点是特性x0设为1,w0为截距,z=w0+w1x1+....原创 2016-03-25 09:04:30 · 2517 阅读 · 0 评论 -
机器学习day9 机器学习实战logistic回归和疝马病的预测
今天完成了疝马病的预测,结果符合书上预期,原理还是不太懂。有机会问问大神们吧。实在没有精力贴过程了,贴个代码吧,操作和书上一样。注意矩阵相乘用numpy的操作,mat。注意在线算法和离线算法的区别。这个数据集有数据缺失用0补齐,注意为什么用0,书上有介绍。原创 2016-03-23 21:48:07 · 458 阅读 · 0 评论 -
机器学习day3 机器学习实战kNN约会网站的预测
从昨天中午开始整这个kNN,昨天晚上一直没吃饭终于整好,无数次的失败,成功之后很开心。数据集在csdn可以下载到,放在执行python的目录里。通过数据分析出3类人,没有魅力的,有点魅力的,极具魅力的。这里关键是给出操作的步骤,忽略的细节请参考《机器学习实战》step1:首先是数据的获取,将下载好的数据放在python的目录中,名字为'datingTestSet2.txt'原创 2016-03-13 11:31:49 · 441 阅读 · 0 评论 -
机器学习day2 机器学习实战kNN第一个实例
拖了很久本该写下的,前几天学习了python的基本操作和numpy,matplotlib库等。昨天实现了一个《机器学习实战》的例子,很好的一本书,讲解很清晰并且csdn能下载全套的数据。原创 2016-03-13 10:46:06 · 624 阅读 · 0 评论 -
python-numpy tile函数的应用
numpy一直差异的一个函数,今天终于了解了tile函数的用法。tile(A, (维度扩充的倍数, 每一维扩充的倍数))用法例如>>> a=[[1,2],[2,3]]>>> tile(a,[1,2])array([[1, 2, 1, 2], [2, 3, 2, 3]])>>> tile(a,[2,2])array([[1, 2, 1,原创 2016-03-11 12:42:52 · 312 阅读 · 0 评论 -
机器学习day13 机器学习实战线性回归
这两天学习了线性回归的知识,这部分知识还是比较简单的。相关系数的计算:有柯西不等式可以得到相关系数的绝对值|r| 0说明x,y同增,r原创 2016-04-03 19:48:14 · 658 阅读 · 1 评论 -
机器学习day7 机器学习实战朴素贝叶斯分类器的实现
经历了3天,玩梦幻西游手游浪费了不少时间,在这里自我检讨,赶在睡觉之前完成了朴素贝叶斯分类器的实现,总算能睡个好觉,明天和同学出去自习,搞定逻辑回归。书上赘述了一大堆铺垫,关于公式的理解和朴素贝叶斯的原理上一篇已经有解释。这里只给出代码实现。因步骤太过繁琐,和书上基本一致。室友在睡觉,早点睡,直接上代码,代码里有注释。ps:数据集下载csdn中《机器学习实战》的数据选第四章,把emai原创 2016-03-19 23:18:42 · 432 阅读 · 1 评论 -
机器学习day17 机器学习实战FP-growth挖掘频繁项集
这两天进行了fp-growth的学习,这块知识确实很难理解,书上只是搪塞了这一块的细节,并且作者还有一个疏忽,导致一个很大的错误出现,这在后面会提到。这让读者很是费解,网上的资料或者博客也并没有介绍实现的细节,大多复制粘贴,这两天一直在研究这个算法,这篇文章可能写的不是很清楚,但可能是网上目前介绍fp-growth思想的最好的文章了,如果看了其他fp-growth的介绍没有看懂可以看下,建议之前有原创 2016-04-21 12:05:29 · 811 阅读 · 1 评论
分享