
Search Engine
文章平均质量分 77
phinecos
专注于开源技术的研究与应用
展开
-
基于朴素贝叶斯分类器的文本分类算法(上)
转载请保留作者信息:作者:phinecos(洞庭散人)Blog:http://phinecos.cnblogs.com/Email:phinecos@163.com Preface 本文缘起于最近在读的一本书-- Tom M.Mitchell的《机器学习》,书中第6章详细讲解了贝叶斯学习的理论知识,为了将其应用到实际中来,参考了网上许多资料,从而得此文原创 2008-10-21 14:45:00 · 3446 阅读 · 2 评论 -
【转】用Hadoop 进行分布式并行编程, 第 1 部分
Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。本文将介绍 MapReduce 计算模型,分布式并行计算等基本概念,以及 Hadoop 的安装部署和基本运行方法。 Hadoop 简介 Hadoop 是一个开源的可运行于大规模集群上的分布原创 2008-11-11 19:43:00 · 882 阅读 · 0 评论 -
【转】用 Hadoop 进行分布式并行编程, 第 2 部分
Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。在本文中,详细介绍了如何针对一个具体的并行计算任务,基于 Hadoop 编写程序,如何使用 IBM MapReduce Tools 在 Eclipse 环境中编译并运行 Hadoop 程序。原创 2008-11-11 20:43:00 · 713 阅读 · 0 评论 -
【转】The Hadoop Distributed File System: Architecture and Design
Introduction The Hadoop Distributed File System (HDFS) is a distributed file system designed to run on commodity hardware. It has many similarities with existing distributed file systems. Howeve原创 2008-11-11 20:43:00 · 1900 阅读 · 0 评论 -
【转】分析Hadoop自带WordCount例子的执行过程(1)
在Hadoop的发行包中也附带了例子的源代码,WordCount.java类的主函数实现如下所示:Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->public static void main(String[] args) throws E原创 2008-11-11 21:43:00 · 1515 阅读 · 0 评论 -
【转】分析Hadoop自带WordCount例子的执行过程(2)
这里说明一下Option类及其如何设置一个Option类的实例。在buildGeneralOptions()方法接收Options opts然后又返回了opts,在这个过程中已经改变了opts的值。如下所示:Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter原创 2008-11-11 21:43:00 · 1094 阅读 · 0 评论 -
【转】分析Hadoop自带WordCount例子的执行过程(3)
继续向下看:Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/--> Option fs = OptionBuilder.withArgName("local|namenode:port") .hasArg() .withDes原创 2008-11-11 21:43:00 · 1091 阅读 · 0 评论 -
Lucene学习笔记(一)
建立索引:Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->import java.io.File;import java.io.FileReader;import java.io.IOException;import java.util.Dat原创 2007-08-25 20:55:00 · 745 阅读 · 0 评论 -
【转】Lucene倒排索引原理
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下:0)设有两篇文章1和2Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->文章1的内容为:Tom lives in Guang原创 2007-08-25 22:55:00 · 601 阅读 · 2 评论 -
Lucene学习笔记(二)
import java.io.IOException;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.SimpleAnalyzer;import org.apache.lucene.document.Document;import org.apache.lucene.document.原创 2007-08-29 15:55:00 · 702 阅读 · 0 评论 -
《Modern Information Retrieval》笔记(一)
一,信息检索的基本概念,评价,模型和算法:1)模型、相关反馈、查询扩展;2)文本处理技术;3)文本分类和聚类技术(倾向性分析);4)信息过滤技术;5)信息组织和索引;6)并行和分布式检索二,信息检索的应用:1)WEB检索;2)数字图书馆;3)多媒体检索三,国际著名研究机构和代表人物1)美国康奈尔大学Salton(1927-19原创 2007-10-14 14:54:00 · 996 阅读 · 0 评论 -
《Modern Information Retrieval》笔记(二)
Information Retrieval这个术语产生于Calvin Mooers1948年在MIT的硕士论文。Information Retrieval(IR):从文档集合中返回满足用户需求的相关信息的过程。作为一门学科,是研究信息的获取(acquisition)、表示(representation)、存储(storage)、组织(organization)和访问原创 2007-10-14 16:54:00 · 853 阅读 · 0 评论 -
Heritrix研究笔记(一)
这个开源的Web爬虫,Internet Archive在它的官方文档中说只维护在linux下,我不想用那么麻烦的bash shell去设置那些环境变量什么的,所以还是偷点懒,自己写个windows命令脚本来让这个爬虫在windows下面跑起来吧,现在就跟我来吧,呵呵。 要在Windows上让Heritrix跑起来,下面三步就OK了:1)原创 2007-10-18 20:53:00 · 699 阅读 · 0 评论 -
nutch 0.9在Windows下的安装
一、环境: 1.操作系统:windowsXp,windows2000+ 2.java1.6,设置JAVA_HOME到环境变量 3.cygwin,当然这个不是必需的,只是nutch提供的脚本只能在shell环境下使用,所以使用cygwin来虚拟shell命令。 4.nutch版本:0.9 5.tomcat:6.0原创 2007-11-20 16:53:00 · 672 阅读 · 0 评论 -
基于K-Means的文本聚类算法
源代码下载:TDIDF_Demo.rar 声明:本文代码思路完全来自蛙蛙池塘的博客,只为技术交流用途,无其他目的 昨天有幸拜读了蛙蛙池塘的《蛙蛙推荐:蛙蛙教你文本聚类》这篇文章,受益匪浅,于是今天就动手尝试照着他的C#代码,用C++和STL标准库重新实现一遍,因此就有了这篇文章。本文将重新温习蛙蛙池塘那篇文章,并且加入我个人在用C++重写这份代码过程中学到原创 2008-09-06 15:46:00 · 2278 阅读 · 1 评论 -
基于朴素贝叶斯分类器的文本分类算法(下)
源代码下载:NaviveBayesClassify.rar Preface文本的分类和聚类是一个比较有意思的话题,我以前也写过一篇blog《基于K-Means的文本聚类算法》,加上最近读了几本数据挖掘和机器学习的书籍,因此很想写点东西来记录下学习的所得。在本文的上半部分《基于朴素贝叶斯分类器的文本分类算法(上)》一文中简单介绍了贝叶斯学习的基本理论,这一篇将展示如何将该理原创 2008-10-21 16:45:00 · 2805 阅读 · 1 评论