
算法
文章平均质量分 77
KEN11
3G门户数据分析师,刚入门的数据分析菜鸟,有三年的J2EE开发经验以及毕业于二流的应用数学学院,做一个数据界的屌丝级分析师。
展开
-
决策树算法
通俗来说,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话: 女儿:多大年纪了? 母亲:26。 女儿:长的帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算很高,中等情况。 女儿:是公务员不? 母亲:是,在税原创 2012-10-12 21:19:17 · 2977 阅读 · 0 评论 -
MySQL统计函数记录——GROUP_CONCAT()函数
语法: GROUP_CONCAT([DISTINCT] expr [,expr ...][ORDER BY {unsigned_integer | col_name | expr}[ASC | DESC] [,col_name ...]][SEPARATOR str_val]) 下面演示一下这个函数,先建立一个学生选课表student_courses,并填充一些测试数据。 SQL原创 2012-11-12 10:19:41 · 5239 阅读 · 0 评论 -
MySQL统计函数记录——时间段统计
按年汇总,统计: select sum(mymoney) as totalmoney, count(*) as sheets from mytable group by date_format(col, '%Y'); 按月汇总,统计: select sum(mymoney) as totalmoney, count(*) as sheets from mytable group by da原创 2012-11-12 10:10:05 · 19765 阅读 · 0 评论 -
MySQL统计函数记录——按条件计数
问题描述 为使讨论简单易懂,我将问题稍作简化,去掉诸多的背景。 从前有一个皇帝,他有50个妃子,这些妃子很没有天理的给他生了100,000个儿子,于是,皇帝很苦恼,海量的儿子很难管理,而且,他想知道每个妃子给他生了多少个儿子,从而论功行赏,这很难办。于是,皇帝请了一个程序员帮他编了一个程序,用数据库来存储所有的儿子的信息,这样就可以用程序来统计和管理啦。 数据库的结构如下: id原创 2012-11-12 10:32:10 · 3602 阅读 · 0 评论 -
k均值聚类(K-means)
1、摘要 在前面的文章中,介绍了三种常见的分类算法。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。聚类属于无监督学习,相比于分类,聚类不依赖预定义的类和类标号的训练实例。本文首先介原创 2012-11-28 14:21:17 · 5285 阅读 · 0 评论 -
用Python读红楼梦之——一、词云绘制
Python在数据分析中越来越受欢迎,已经达到了统计学家对R的喜爱程度,Python的拥护者们当然不会落后于R,开发了一个个好玩的数据分析工具,下面我们来看看如何使用Python,来读红楼梦,本文是《用Python读红楼梦》系列文章的第一篇,绘制小说中的词云。转载 2016-07-08 13:22:06 · 2667 阅读 · 0 评论 -
用Python读红楼梦之——二、词云美化
咱们书接上回,讲到我们使用Python把红楼梦中的核心词汇给绘画出来了,但是,红楼梦这么唯美的书,给我们乌漆麻黑的搞了一张词云,宝宝们肯定接受不了。转载 2016-07-08 13:23:37 · 1516 阅读 · 0 评论