
数据挖掘/机器学习
架构师思考实践
大数据、实时计算、离线计算
展开
-
机器学习-----K近邻算法
下午参加了个交流会,主要介绍了一下K近邻算法。这里把我的理解总结一下。K临近算法就是,样本中的数据有多个维度,每条样本对应一个标签。对要判断的数据,跟样本中的数据求出距离,然后递增排序,去前K个距离近的样本,对应标签比例大的那个就是,要判断的数据对应的标签。这个算法的思想还是挺好理解的,但是真正应用到实际问题时,可能对不同数据,需要具体考虑。例如,样本数据较大时,不能都去求距离,然后排原创 2013-12-22 23:39:42 · 1240 阅读 · 0 评论 -
日志分析方法概述
日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。在Web日志中,每条日转载 2014-04-13 20:03:15 · 872 阅读 · 0 评论 -
数据挖掘10大算法(1)——PageRank
http://www.cnblogs.com/FengYan/archive/2011/11/12/2246461.html1. 前言这系列的文章主要讲述2006年评出的数据挖掘10大算法(见图1)。文章的重点将偏向于算法的来源以及算法的主要思想,不涉及具体的实现。如果发现文中有错,希望各位指出来,一起讨论。转载 2014-03-23 00:56:29 · 1027 阅读 · 0 评论 -
斯坦福大学Andrew Ng教授主讲的《机器学习》公开课观后感
http://liliphd.iteye.com/blog/1929358近日,在网易公开课视频网站上看完了《机器学习》课程视频,现做个学后感,也叫观后感吧。 学习时间 从2013年7月26日星期五开始,在网易公开课视频网站上,观看由斯坦福大学Andrew Ng教授主讲的计算机系课程(编号CS229)《机器学习》(网址http://v.163.com/special/opencou转载 2014-06-22 18:56:23 · 1296 阅读 · 0 评论