- 博客(19)
- 资源 (3)
- 收藏
- 关注
原创 mahout之旅---分布式推荐算法ALS-MR
最近在为找工作准备,于是把原来学习过的算法和还没有接触过的算法一一翻出来总结一番。ALS-WR算法是我比较欣赏的一个推荐算法。能够决解很多问题,比SVD还要好用,就是实现起来有点费劲。然而这个算法却在网上比较难找,出现最多的就是大神fansy1990的博文,他的博文分析的很全面,有大局观。但是在ALS_WR算法上也出现了一定的迷惑性。让初学者不知所云。基于此决定自己总结供大家参考,再次表示抱歉,贴图是自己手写的,博文里编辑公式还是硬伤。
2015-05-13 20:42:07
4013
原创 矩阵乘法的Mapreduce实现过程
MapReduce实现矩阵的乘法在学习pageRank算法时看到这么一个小小的编程应用。并且一直自诩只要有原理就能写出代码(只是时间问题),矩阵乘法的原理很简单,基本上理工科生(只要学过线性代数或者相关课程)都知道。但是从来没有想过通过并行计算的方式完成矩阵乘法。 简单粗暴的讲,就是左矩阵M
2015-04-17 00:16:53
2301
原创 mahout探索之旅---频繁模式挖掘算法与理解
频繁模式挖掘(先声明一下,文章内容可能你在网上也能找到,但是我参考了几篇文章的优势,使得算法更容易理解)Apriori算法Apriori算法是一个经典的数据挖掘算法,Apriori的单词的意思是"先验的",说明这个算法是具有先验性质的,就是说要通过上一次的结果推导出下一次的结果,这个如何体现将会在下面的分析中会慢慢的体现出来。Apriori算法的用处是挖掘频繁项集的,频繁项集粗
2015-04-11 11:50:31
1596
原创 mahout探索之旅——CART分类回归算法
CART算法原理与理解CART算法的全称是分类回归树算法,分类即划分离散变量;回归划分连续变量。他与C4.5很相似,但是一个二元分类,采用的是类似于熵的GINI指数作为分类决策,形成决策树之后还要进行剪枝,我自己在实现整个算法的时候采用的是代价复杂度算法。GINI指数GINI指数主要是度量数据划分或训练数据集D的不纯度为主,系数值的属性作为测试属性,GINI值越小,表明样本的纯净度越高
2015-04-01 19:47:25
972
原创 mahout探索之旅——kmeans算法(上)
K-Means算法是聚类算法,k在在这里指的是分类的类型数(根据经验指出会出现几个类别),所以在开始设定的时候非常关键,算法的原理是首先假定k个分类点,然后根据欧式距离计算分类,然后去同分类的均值作为新的聚簇中心,循环操作直到收敛。算法的关键在K个值的选取上,如果均值选得恰当将有利于算法的快速收敛。Kmeans算法的执行过程的伪代码可概括为如下:Kmeans算法时间复杂度:O(tkmn
2015-03-12 21:43:55
1096
原创 mahout探索之旅---聚类感想(一)
前面《mahout探索之旅——开篇》已经初略地介绍了mahout算法库的组成。这里先谈一谈我对聚类算法开发的感想。不管是学习还是开发一个聚类算法,首先应该考虑的这样三个问题:1)算法核心:算法是用于聚类,聚类核心在什么地方?与其他聚类算法有什么区别?优势在什么地方?2)相似度衡定:既然是聚类算法,应该有度量类的方法,如何把数据归类?如kmeans算法把离k均值最近点归类到相应类。
2015-03-11 23:17:45
636
原创 mahout探索之旅---开篇
零零散散的学习了很多常用算法,也没有系统的总结过一次,有前辈多次指出学习知识要经常注重总结,从总结规律中学习新的知识。接下来两三个月着重总结一下mahout分布式计算算法库框架。数据挖掘算法按功能分四类:分类、聚类、预测、关联(协同过滤)。聚类:常言道“人以群分、物以类聚”。一个聚类即是一个类物体的集合,集合的个体是相似的,不同聚类中的个体是不相似的。同类事物的距离最短,不同类事物的距离最长。
2015-03-10 12:00:47
503
原创 批量修改文件名
每次写博客时需要导入一些图片时都会遇到一个困惑,就是截图的名称太长不规范,不知道哪一张是指定的图片,还有就是手机拍的照片看那个名字就是不舒服。于是写了这一个小工具用于重命名文件名。文件批量重命名工具不局限于对图片的重命名对任意文件都适用。下面是相关源代码与解析:由于代码比较小,就没有对其作分层处理。源代码包括界面设计、文件名识别、文件重命名处理等三部分。代码编译环境:Jdk1.6和wind
2015-02-07 11:05:17
560
原创 maven工程项目导入eclipse相关问题解决办法
已有的maven工程源代码导入eclipse中的过程跟一般的java工程过程一样。 但是导入之后工程上会出现一个红色的感叹号,这是因为你拷贝过来的源代码换了一个工作环境,源代码对maven依赖包变了,可能你的本地仓库没有这些包。 果不其然,这个时候查看java build path,会发现maven依赖包中有些包在本地仓库中是没有的(missing),maven
2015-01-21 10:14:37
686
原创 基于NS2的Ad Hoc网络AODV路由协议性能评估的仿真
NS2(Network SimulationVersion 2)是一款功能强大的网络模拟仿真,它是用C++和OTCL两种语言完成的。C++语言编写协议执行模块,OTCL语言编写模拟任务。NS2主要针对有线局域网、无线局域网、Ad Hoc网络、卫星通信网、路由选择协议、组播路由协议等进行网络模拟仿真。
2014-12-19 17:46:15
8936
11
原创 java工程项目完整开发
开始学java以来,一直在想一个完美的java/c等工程程序,如何让它能在像QQ等那些软件一下脱离eclipse坏境独立运行,即能在任何windows坏境下使用呢? 通过对java的继续学习,和查询了部分资料现在总结出:将jar文件转换成exe可执行文件 本例为一个查询数据库功能java工程案例,转换成exe安装文件后可移植到其他windows环境下安
2014-11-27 16:20:24
1229
转载 liunx shell应用——电脑键盘背光不亮
#!/bin/bashif [ "$1" = "on" ] ||[ "$1" = "ON" ]; thenxset led named 'Scroll Lock'elif [ "$1" = "off" ] ||[ "$1" = "OFF" ]; thenxset -led named 'Scroll Lock'elseecho "Usage: $0 on/off"exi
2014-11-04 22:37:10
802
转载 BAT面试——有所触动
转自:http://blog.youkuaiyun.com/ns_code/article/details/40408397写在前面 结束了在百度的实习,是时候写下校招的总结了,再不写估计很多东西都忘了。在开源社区混迹久了,从别人的学习、求职、工作经历中越发感受到很多的正能量,也本着攒RP的原则,向学弟学妹们,尤其非名校的学弟学妹们传递点正能量,因为博主也是非名校出身,而且在整个求职的过
2014-11-04 17:09:51
1641
转载 maven教程一入门(尊重作者知识,沿用他的标题)
Maven是一个采用纯Java编写的开 源项目管理工具。Maven采用了一种被称之为project object model (POM)概念来管理项目,所有的项目配置信息都被定义在一个叫做POM.xml的文件中,通过该文件,Maven可以管理项目的整个声明周期,包括编 译,构建,测试,发布,报告等等。目前Apache下绝大多数项目都已经采用Maven进行管理。而Maven本身还支持多种插件,可以方
2014-10-14 09:47:26
450
ALS-MR数据集
2015-05-15
文件名批量修改工具
2015-02-07
基于NS2的Ad Hoc网络AODV路由协议仿真
2014-12-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人