
data mining and imformation retrieval
文章平均质量分 61
lidoublewen
这个作者很懒,什么都没留下…
展开
-
半监督算法:(Using Weighted Nearest Neighbor to Benefit from Unlabeled Data)
Using Weighted Nearest Neighbor to Benefit from Unlabeled Data,半监督算法,二层分类器原创 2011-05-01 23:35:00 · 2450 阅读 · 0 评论 -
eclipse中导入nutch
eclipse中导入nutch原创 2011-05-03 17:40:00 · 3676 阅读 · 3 评论 -
如何在linux下开发mapreduce应用程序(基于单机)
开发环境:操作系统:ubuntu10.10jdk:java version "1.6.0_20" (ps:这个版本一定要在1.6以上),这个可以通过ubuntu软件中心下载IDE:Eclipse步骤:1.下载hadhoop:到http://hadoop.apache.org/下载,我下载的是hadoop-0.20.2.tar.gz,解压;2. 解压后,在hadoop-0.20.2/contrib/eclipse-plugin/下有hadoop-0.20.2-eclipse-plugin.jar,将这个ja原创 2011-05-05 19:42:00 · 3356 阅读 · 0 评论 -
nutch命令说明
关键字: nutch 命令 Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。主要的命令如下: 1. Crawl Crawl是“org.apache.nutch.crawl.Crawl”的别称,它是一个完整的爬取和索引过程命令。 使用方法: Shell代码 bin/nutch crawl [-dir d] [-threads n] [-depth i] [-topN] bin/nutch crawl [-dir d]转载 2011-05-07 20:25:00 · 950 阅读 · 0 评论 -
为什么要集成分类器
将相互之间具有独立决策能力的分类器联合起来的方式就叫作集成分类器。事实证明通常情况下集成分类器的预测能力要比单个分类器的预测能力好得多。集成分类器就好比百万富翁节目里的“问现场观众”选项,而单个分类器就是“打电话问老友”。单个人的判断能力在很多情况下是无法跟集体的智慧抗衡的,所以原创 2011-07-12 20:14:06 · 10056 阅读 · 1 评论 -
推荐系统-用户跟风程度(众口味程度)
推荐系统中经常会遇到一个问题-特定用户的品味跟大众品味的相似程度(众口味程度),比如说要预测movielens(如下图所示)中用户给电影的打分情况(满分5颗星,也可以选择半颗星),我们就可以通过计算用户评分偏离平均评分1.5颗星所占比率(computed the proporti原创 2011-07-14 15:55:59 · 1462 阅读 · 0 评论