Data Mining
文章平均质量分 86
bollwang
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习实战决策树之眼镜男买眼镜
决策树是个极其易懂的算法,建好模型后就是一连串嵌套的if..else...或嵌套的switch。 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据; 缺点:可能会产生过度匹配的问题; 适用数据类型:数值型和标称型。 决策树的Python实现: (一)先实现几个工具函数:计算熵函数,划分数据集工具函数,计算最大概率属性; (1)计算熵:熵代表集原创 2013-06-27 22:22:43 · 4653 阅读 · 0 评论 -
集体智慧编程学习之聚类系统
有句话这么说“物以类聚,人以群分”,说的很有道理,有些人就完全融入不了一些团队,我觉得这里面不只是气场的问题,我也一直在苦苦思索这个问题,每个人有自己的生活习惯和思维习惯,相同生活习惯和思维习惯的人很容易聚在一起;反之则比较难了。 目标很明确,给你一堆电子书,怎么把其中一些书归为一类,其中另一些书归为另一类······,我会先看书的厚度,太厚的书(超过800页)我归为和我没什么关系这一类(偶尔会原创 2013-05-14 22:18:02 · 45687 阅读 · 0 评论 -
集体智慧编程学习之优化系统
优化系统的想法真不好简单地说的明白,这样吧,我爸在陕西西安,我妈在安徽的合肥,我弟弟在深圳,打算坐飞机到北京我这里玩。家人都比较节省,打算到了机场后互相等对方,然后一起坐车租车到我住的地方。 我查了qunar,一天从西安,合肥,深圳到北京有很多航班,怎么样让总的票价最少,并且在机场互相等待的时间降到最低。这里假设一个人等1分钟相当于1块钱,这样我们的目标就是让成本schedulcost=(父亲机原创 2013-05-19 16:15:21 · 20836 阅读 · 0 评论 -
集体智慧编程学习之分类系统
在前面《集体智慧编程学习之聚类系统》中,我对收藏的一些电子书做了聚类。当时是在没有任何前验知识的情况下,采用K-均值聚类的算法将书籍分为经济类,心理类,摄影类等等。今天,我打算手工给书籍分类,我先把特别特别特别喜欢的书整理出来,然后分好类。分好搞得我精疲力尽,却发现还有大量的特别特别喜欢的,特别喜欢的,喜欢的,还好的,不喜欢的。。。就这么手工分了一小部分,我已经完全不想再手工分下去了。我已经分了一原创 2013-05-22 19:12:49 · 21372 阅读 · 0 评论 -
集体智慧编程学习之决策树
常用的沟通工具,比如手机,QQ是和已经认识的朋友交流的工具。现在出现了一大批自诩的约炮神器,非诚勿扰挺好看的,宅男腐女的问题操碎了爸妈的心,世纪佳缘都上市了,看来大家对想认识不认识的人有巨大的热情。我也听说非诚勿扰牵手成功后最后走到一起的并不多,这些方式到底靠不靠谱?如果我去参加非诚勿扰,我会不会牵手成功?这里面是不是有一些规律可循,趁着今天被毁容不能出门,我就来学习一下决策树。 高中老师隔三差原创 2013-05-25 12:58:20 · 54096 阅读 · 3 评论 -
集体智慧编程学习之核方法
这个算法真是不太好懂,看了好几遍终于有点入门的感觉,就赶紧记录下这点感觉。我从复习线性分类开始,然后复习点积的含义,再引出核方法。 线性分类是最容易理解的分类方法,两组数据A和B,分别求出A和B的平均值,比如M和N,当判断新数据X是属于A还是属于B呢,就看新数据X到M近还是N近,X属于距离近的那个。为了实现这个算法,我们需要计算出各分类的均值点: def lineartrain(rows)原创 2013-05-27 21:03:19 · 19732 阅读 · 0 评论 -
机器学习实战kNN之手写识别
kNN算法算是机器学习入门级绝佳的素材。书上是这样诠释的:“存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都有标签,即我们知道样本集中每一条数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征比较,算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前K个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于原创 2013-06-25 21:44:18 · 7929 阅读 · 7 评论 -
机器学习实战Logistic回归之马儿得疝气了,怎么办?
这个算法搞得我晚上十点打电话给弟弟,问Ln(x),1/x的导数公式。很惭愧,大学时被我用的出神入化、化成灰我都能认出的求导公式,我今天居然忘了;这时也要说说西市佳园的移动网络信号,真不怎么好。这次我重点学习Logistic回归,涉及到了最大似然函数最大化的优化解法。 优点:计算代价不高,易于理解和实现; 缺点:容易欠拟合,分类精度可能不高; 适用数据类型:数值型和标称型数据。 Logist原创 2013-06-30 13:20:33 · 5120 阅读 · 2 评论 -
集体智慧编程学习之非负矩阵因式分解
大学时我的线性代数老师寿继麟,当时六十多岁带着一副金丝眼镜精神矍铄,传说是我最尊敬的余德鴻副校长的老师。上课的课本是寿老师写的打印出来给大家,很便宜。我虽然不好好学习,但是在好老师的带领下,也不至于学的太差。余校长隔段时间总会给我们上一堂课,虽然没有说过我们什么,但总能让我们惭愧进而刻苦上一段时间。记得他说过这样一个问题,会场人声嘈杂,给你两个麦克风,怎么在一无所知的情况下分离出你想听到的那个人的原创 2013-05-26 20:26:22 · 22264 阅读 · 0 评论 -
集体智慧编程学习之推荐系统
打算从这篇开始,一边学习一边写些数据挖掘的东西,主要是督促自己学习和总结。 我最开始的网购是从china-pub买了一本《Unix/Linux编程实践教程》,书好,便宜,并且可以货到付款,很是吸引我这种懒穷学生,于是一发不可收拾买了很多书,后来转战dangdang,再后来就是amazon,现在基本都在jd买了,除了书,还会在yihaodian买一些日用品。后来发现这几家都会有推荐,dangdan原创 2013-05-11 16:37:26 · 20598 阅读 · 1 评论
分享