Data Mining
文章平均质量分 79
翱翔的翱
天下有大勇者,卒然临之而不惊,无故加之而不怒
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
当Python和R遇上北京二手房(上)
最近忙活了一阵子,终于把房子的事情落实了,俗话说饱暖思淫欲,某天突发奇想能不能利用手头上的一些工 具对北京的二手房数据捣鼓一下,看看能不能有一些有意思的发现?想到以前有点python经验,正巧最近也在 看R,正好借此机会巩固一下,齐活,走起!一、数据准备看了下各大房产网站,从数据的量级、真实性、即时性等方面对比了下,有的数据挺多,但是数据真实性不高,上面既有房主的帖子,也有中介的帖子;原创 2015-09-02 22:26:36 · 1731 阅读 · 10 评论 -
当Python和R遇上北京二手房(下)
四、各区情况作为买房者第一步就是看房选房,那么各区的情况是怎样的呢?下面从买房者比较注重的五个方面横向对比一下。1.各区总价(图中红点为本区域的均值)果然不出所料,西城、东城、海淀、朝阳四区均值和中位数均在前列,且数据区间分布比较广,而一些新兴的郊区如房山、门头沟、燕郊总价则较为集中,大概是因为房子是同一时期建设,功能需求也比较单一的缘故。另外我注意到,各区的总价均值均不同程度的偏离中位点,城区偏离原创 2015-09-05 11:47:00 · 2392 阅读 · 1 评论 -
统计学中的p值
在我看来,假设检验从本质上是一种反证法。当你想证明一样事物是对的,有时候不太好证明,因为一件你以为对的东西可能只是因为你还没发现它错的一面,相反你想证明一件事物是错的就容易多了。在假设检验中,证明备择假设H1存在困难,我们就去证明它的反面原假设H0。p值一直是一个令人迷惑的地方,p值实际上是当H0假设为真,一些极端情况出现的概率。即 p值={极端情况概率|H0}p值 = \{极端情况概率|H0\原创 2016-03-20 11:36:27 · 5046 阅读 · 0 评论 -
他们征友(婚)时,他们征什么?
有道是年年岁岁花相似,岁岁年年征友人,征友贴一茬又一茬,简历投了一波又一波,为什么迟迟得不到回复?当男女征友时,他们到底在征什么?你真的看懂征友贴了吗?你还在为你屡屡投条未收到答复而苦恼吗?你还在为简历被女神刷掉自怨自艾吗?本文以北邮人论坛征友贴为主要原料,使用独家秘制八卦手法,希望从中发现一些有意思的事,本着娱乐至上,看热闹不嫌事大的原则,有些观点和分析请观者自行甄别,图例中F(emale)代表原创 2016-08-17 22:06:53 · 950 阅读 · 0 评论 -
大道至简:朴素贝叶斯分类器
万物之始,大道至简,衍化至繁。 ——ifelse(is.element(this, 道德经), 道德经, unknown)一、背景 提到贝叶斯分类,首先来看下贝叶斯其人,贝叶斯(Thomas Bayes,1701—1761)英国牧师、业余数学家。可别小看了欧洲的牧师,孟德尔,被誉为“遗传学之父”也曾为一名神父,假如你不记得孟德尔是谁,那么你肯定记得高中生物上那个著名的豌豆原创 2015-10-11 13:45:30 · 2299 阅读 · 0 评论 -
三生万物:决策树
一、概述不知怎么回事,提到决策树我就想起”道生一,一生二,二生三,三生万物“这句话,大概是因为决策树从一个根节点慢慢“长”成一棵树,也要经历“一生二,二生三”的过程。决策树本质上就是一种二叉树,根据特定的标准不停的分成左右两个子树,直到符合某种条件停止。树算法解释性强、简单直观以及接近人的决策方式使它成为流行的机器学习算法之一。当决策树与装袋法(Bag)、提升法(Boosting)结合之后,可以成为原创 2017-11-11 16:53:19 · 654 阅读 · 0 评论
分享