
机器学习与数据挖掘
aidayei
这个作者很懒,什么都没留下…
展开
-
k-means算法和层次聚类算法
<br />将数据挖掘作业拿出来公析一下,作个记录原创 2011-05-16 20:31:00 · 1956 阅读 · 1 评论 -
将lucene索引转化成mahout输入向量
mahout lucene.vector --dir /home/test/test-in/index/ --output /home/test/test-in/outdex/part-out.vec --field body --dictOut /home/test/test-in/outdex/dict.out 问题1:版本问题( "Exception in thread "main" o原创 2011-07-25 19:00:02 · 3946 阅读 · 2 评论 -
编译mahout源码并导到eclipse中
为什么要编译源码呢?其实直接用二进制包更省事,只是为了方便读取源码和修改源码1.直接在mahout安装目录下使用mvn install,这样mahout目录下的所有文件就都编译并打包安装,可以在各模块下的target目录中看到class目录和生成的jar包2.如果只想编译部分,例如编译core:更换到core目录下,mvn compile,此时没有生成jar包,只生成了.class文件,之原创 2011-08-05 22:54:48 · 6426 阅读 · 4 评论 -
海量文献管理系统概述
很长一段时间不写博客了,因为最近要弄论文,但看到我的博客上被优快云加了个“恒”的小图标,要求是每个月发四篇日志以上,以鼓励大家多把东西拿出来分享。这一点其实挺好的,很多程序员擅长于编码,但并不一定讲解的很好或清晰的写出来。一个技术牛人曾说过:技术人员能把一项技术完成,仅能得及格分,如果能把操作过程写下来,能得70分,而如果能做好、能写出来,并且清晰的讲给大家听,那才可以得满分。 开源原创 2011-11-23 22:49:36 · 3001 阅读 · 0 评论 -
mahout入门学习
因为要用到云计算下的数据挖掘,所以就简单看了一下mahout配置,mahout是一个基于Map/Reduce的机器学习算法库,运行在hadoop集群上废话不多说,下面看配置过程1.到mahout官网上下载mahout-distribution-0.4.tar.gz,这个是已经编译好的包,如果下的是源码包,则需要安装maven来编译2.前面已经搭过hadoop,这里不再说,下面设置环境变原创 2011-07-20 17:09:33 · 7748 阅读 · 3 评论 -
mahout应用kmeans进行文本聚类2之——实例分析
在Mahout_in_Action这本书中,给了一个文本的聚类实例,并提供了原始输入数据,下面结合例子说明 作为聚类算法的主要应用场景 - 文本分类,对文本信息的建模也是一个常见的问题。在信息检索研究领域已经有很好的建模方式,就是信息检索领域中最常用的向量空间模型词频 -原创 2011-08-09 22:49:06 · 10024 阅读 · 6 评论 -
mahout之canopy算法简介
K 均值聚类算法的最大的优点是:原理简单,实现起来也相对简单,同时执行效率和对于大数据量的可伸缩性还是较强的。然而缺点也是很明确的,首先它需要用户在执行聚类之前就有明确的聚类个数K的设置,这一点是用户在处理大部分问题时都不太可能事先知道的,一般需要通过多次试验找出一个最优的 K原创 2011-08-12 15:34:53 · 5566 阅读 · 2 评论 -
mahout中的kmeans结果分析
运行官网上的mahout kmeas示例,结果文件夹有clusteredPoints,clusters-N,data,用命令mahout seqdumper仔细看了一下结果文件clusteredPoints:存放的是最后聚类的结果,将cluster-id和documents-原创 2011-08-06 17:41:05 · 8148 阅读 · 3 评论 -
mahout应用kmeans进行文本聚类1之——输入输出分析
输入分析:mahout下处理的文件必须是SequenceFile格式的,所以需要把txtfile转换成sequenceFile,而聚类必须是向量格式的,mahout提供下面两个命令来将文本转成向量形式1.mahout seqdirectory:将文本文件转成Sequenc原创 2011-08-09 22:45:16 · 10201 阅读 · 3 评论 -
Eclipse下mahout实现推荐的简单实例
环境:ubuntu下的eclipse数据准备:test.txt第一列为UserID ,第二列为ItemID,第三列为Preference Value 即评分1,101,51,102,31,103,2.52,101,22,102,2.52,103,5原创 2011-07-22 19:17:05 · 21485 阅读 · 4 评论 -
mahout读取nutch抓取数据后的文件
1.mahout seqdumper在读取data文件时,报少ParseText包,把这个包导进来后,就可以正确读取了2.mahout seq2sparse转向量是关键,可这一步报类型转换错误,mahout中要的key-value是(Text,Text)类型原创 2011-08-01 20:23:42 · 1954 阅读 · 0 评论 -
mahout中的kmeans简单实例
在Mahout_in_Action这本书中,有个kmeans的简单实例,可书中只给了源代码,而并没有指出要导入哪些包才能正确运行这本书在前面提到书中所有代码都是基于mahout0.4版本的,可是我发现这个kmeans的例子,却是基于mahout0.3的,有几个函数0.4版中是原创 2011-07-30 21:10:08 · 4069 阅读 · 1 评论 -
mahout seq2sparse源文件解析
mahout seq2sparse对应的源文件是SparseVectorsFromSequenceFiles.java首先用DocumentProcessor.tokenizeDocuments方法,将(Text,Text)变成(Text,StringTuple)Stri原创 2011-08-03 16:11:15 · 2376 阅读 · 0 评论 -
将聚类结果展示在网页上
Nutch中自带对搜索结果的聚类,使用开源的Carrot2,以插件形式被调用,大概看了一下nutch关于clustering这一块的搜索源码,它会显示出URL和title,可是用mahout做文本聚类的话,最后的聚类结果中,只有向量, 当然自己可以将URL加进去,但如何显示标题呢原创 2011-08-31 22:17:08 · 3522 阅读 · 2 评论 -
朴素贝叶斯算法和logistic回归算法
待有时间将机器学习课的作来拿出来分析和对比....原创 2011-05-16 20:28:00 · 2476 阅读 · 0 评论 -
Mahout聚类中相似度计算
7.3 Hello World:运行一个简单的聚类实例(这个内容,我在前面博文“mahout中的kmeans简单实例”中已介绍过)7.4 Exploring distance measures(距离度量扩展)在上面的简单聚类示例中,我们用的是EuclideanDistanceMeasure(欧式距离)来计算点之间的距离。虽然它在我们上节的聚类实例中被证明是有效的度量方法,但在Mahout包翻译 2011-11-22 18:52:17 · 4583 阅读 · 1 评论