
Hadoop /HDFS/ZFS
文章平均质量分 79
zfrong
98年接触计算机,多年Windows软件Web开发经验。知识面广,善于发现问题、分析问题、解决问题。方向:IT项目(策划管理投资).大信息量处理(搜索检索信息抽取挖掘人工智能).
上海MSN:zfrong2000##hotmail.com
展开
-
数据挖掘聚类算法一览总结
聚类分析是数据挖掘中的一个很活跃的研究领域,并提出了许多聚类算法。这些算法可以被分为划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。1. 划分方法(PAM:PArtitioning method) : 首先创建k个划分,k为要创建的划分个数;然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括:k-m转载 2009-06-18 17:50:00 · 2500 阅读 · 0 评论 -
今天来用一个例子来详细讲解下nutch当中到底是如何自定义插件的
接上面一篇,今天来用一个例子来详细讲解下nutch当中到底是如何自定义插件的。1.首先在src/plugin/,新建一个文件夹,这个文件夹我们姑且就叫(urlfilter-urllength),从名字就可以看出我们这个自定义的插件的作用是什么了。 1.我们这个类实现了URLFilter.当然要实现其没有实现的方法了。public class UrlLengthFilter转载 2009-12-24 17:08:00 · 1812 阅读 · 0 评论 -
爬虫调研II:Nutch的工作流程和扩展性
Nutch的工作流程Nutch的工作流程可以分为两个大的部分:抓取部分与搜索部分。抓取程序抓取页面并把抓取回来的数据进行反向索引,搜索程序则对反向索引进行搜索回答用户的请求,索引是联系这两者的纽带。 I. create db 建立并初始化的WebDB转载 2009-12-24 17:19:00 · 1323 阅读 · 0 评论 -
Nutch距离一个商业应用的搜索引擎还有多远收藏
了解nutch的人基本上对这个开源的系统都是比较欣赏的,起码在国内是这样的,也很有多搜索网站是基于这个系统修改过来的,不过要做得好,做得真正是一个商业化的搜索,这个修改就不是一朝一夕的事情,也不是修修剪剪那么简单了。 作为一个通用的全网级别的搜索引擎架构,nutch(lucene)确实为广大人民群众提供了一块大大的蛋糕,为进入搜索这个行业大大降低了门槛。那么它距商业的搜索到底有多远呢?以我的转载 2009-12-24 17:34:00 · 811 阅读 · 0 评论 -
Nutch 0.8笔记 Google式的搜索引擎实现
摘要:Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。 Nutch 0.8完全使用Hadoop重写了骨干代码,另有很多地方作了合理化修正,非常值得升级。 1.Nutch 0.8 的安装与运行 nutch0.转载 2009-12-25 11:33:00 · 982 阅读 · 0 评论 -
Downloading and installing Hadoop
Downloading and installing Hadoop Hadoop can be downloaded from one of the Apache download mirrors. You may also download a nightly build or check out the code from subversion and build it w转载 2009-12-24 14:21:00 · 735 阅读 · 0 评论 -
Hadoop-- 海量文件的分布式计算处理方案
Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样,MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不转载 2009-12-24 14:22:00 · 1006 阅读 · 0 评论 -
NUTCH学习笔记汇总
JAVA开源项目NUTCH学习笔记汇总 (一)NUTCH研究系列1——安装 (二)NUTCH研究系列2——剖析NUTCH爬虫 (三)NUTCH转载 2009-12-24 14:40:00 · 1161 阅读 · 0 评论 -
整理的一些关于nutch分布式的配置
首先需要新建filesystem文件夹 mkdir filesystem 在nutch的conf里面找到hadoop-env.sh进行编辑:export HADOOP_HOME=home/admin5/nutchexport JAVA_HOME=/home/admin5/usr/java/jdk1.5.0_06 //根据具体的环境进行设置export HADOOP_LOG_转载 2009-12-24 14:16:00 · 775 阅读 · 0 评论 -
nutch如何才能抓取到动态的url
http://www.tianya.cn/new/TianyaCity/content.asp?idItem=296&idArticle=53561&idWriter=0&key=0在运行的时候不会抓取到,分析了一下原因:主要在conf/crawl-urlfilter.txt. 分析:使用nutch默认的配置过滤文件的话,是不抓取到包含?*!@=等字符的URL解决办法:修改转载 2009-12-24 17:03:00 · 3764 阅读 · 0 评论 -
Nutch二次开发总结(二)
3搜索结果优化使用nutch 0.9自带的程序包搜索的时候,存在一个冗余数据的情况。例如,如果想搜索关于姚明、易建联等的信息时,nutch默认会把网页中导航条或者一些标题等中包含姚明和易建联信息的页面检索出来,以腾讯为例,http://sports.qq.com/nba/的导航条部分包含了姚明和易建联。但这个页面的其他信息没有设计到姚明和易建联,所以这个页面可能实际上不是我们想要的;转载 2009-12-24 16:03:00 · 2192 阅读 · 5 评论 -
Metoo2008:大型网站集群的整体建设战略&大话负载均衡历史
Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE转载 2009-07-01 17:19:00 · 1320 阅读 · 0 评论 -
主题:数据库水平切分的实现原理解析
第1章 引言随着互联网应用的广泛普及,海量数据的存储和访问成为了系统设计的瓶颈问题。对于一个大型的互联网应用,每天几十亿的PV无疑对数据库造成了相当高的负载。对于系统的稳定性和扩展性造成了极大的问题。通过数据切分来提高网站性能,横向扩展数据层已经成为架构研发人员首选的方式。水平切分数据库,可以降低单台机器的负载,同时最大限度的降低了了宕机造成的损失。通过负载均衡策略,有效的降转载 2009-07-01 16:39:00 · 974 阅读 · 0 评论 -
锁定老贴子 主题:介绍CJDBC
cjdbc ( http://c-jdbc.objectweb.org/ ) 是一个opensource的数据库集群中间件,任何基于jdbc的应用都可以通过它透明地访问数据库集群,它可以进行各个节点之间的数据复制,并且可以实现各个节点的查询负载均衡。通过这样的软件,偶们可以方便的实现RAIDb - Redundant Array of Inexpensive Database廉价数据库转载 2009-07-01 17:04:00 · 836 阅读 · 0 评论 -
Nutch二次开发总结(一)
通过一系列的离线活动(对于查询用户而言)的开展,Nutch检索系统相对而言变得简单了许多。在二次开发的时候,需要重点对Nutch的界面及界面显示数据进行适当的调整。1 摘要提取1.1 摘要提取源码分析** * Low level api to get the most relevant (formatted) sections of the document转载 2009-12-24 16:04:00 · 1189 阅读 · 0 评论 -
Nutch插件机制和Nutch一个插件实例
Nutch插件机制和Nutch一个插件实例2007年06月16日 星期六 15:07Plugin中心(翻译) plugin(插件)为nutch提供了一些功能强大的部件,举个例子,HtmlParser就是使用比较普遍的用来分析nutch抓取的html文件的插件。 为什么nutch要使用这样的plugin系统? 有三个原转载 2009-12-24 16:32:00 · 1152 阅读 · 0 评论 -
Nutch分布式检索配置
Nutch分布式检索配置2009年12月09日 星期三 下午 06:11Nutch版本:0.7.21、 同样Nutch程序分发在N台服务器上2、 在一台服务器上部署tomcat,修改其中nutch-site.xml,将search.dir指向包含search-servers.txt的目录3、 search-servers.txt目录中存放运行nutch服务的服务器ip及其转载 2009-12-24 14:12:00 · 677 阅读 · 0 评论 -
How to Setup Nutch and Hadoop
How to Setup Nutch and Hadoop Aftersearching the web and mailing lists, it seems that there is very littleinformation on how to setup Nutch using the Hadoop (formerly NDFS)distributed fil转载 2009-12-24 14:17:00 · 2519 阅读 · 0 评论 -
nutch插件加载机制
当某个插件需要被加载时, Nutch 会加载所有插件的相关接口到缓存,此后每个插件需要实例的时候,根据相关接口和相关接口实现实例在缓存内的记录,使用反射实现一个实例并返回,下面以 QueryFilter 的所有插件被加载例子进行说明。 具体代码参看org.apache转载 2009-12-24 15:49:00 · 893 阅读 · 0 评论 -
Nutch爬虫工作流程及文件格式详细分析
Nutch爬虫工作流程及文件格式详细分析 Nutch主要分为两个部分:爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。转载 2009-12-24 14:38:00 · 902 阅读 · 0 评论