Nutch-1.x学习笔记

本文介绍了使用Nutch进行网页爬取的操作流程,包括单步操作和脚本操作两种方式。从创建种子URL到最终清理Solr,详细阐述了各步骤的命令及参数设置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >



Nutch单步操作
1、<创建种子url>
mkdir -p urls
cd urls
touch seed.txt
echo "http://www.qq.com/">>urls/seed.txt  #每行一个种子url
2、<inject>
bin/nutch inject crawl/crawldb urls
3、<generate>
bin/nutch generate crawl/crawldb crawl/segments
4、<fetch>
s1=`ls -d crawl/segments/2* | tail -1`
echo $s1
bin/nutch fetch $s1
5、<parse>
bin/nutch parse $s1
6、<updatedb>
bin/nutch updatedb crawl/crawldb $s1
7、多次操作3-6步
8、<invertlinks>
bin/nutch invertlinks crawl/linkdb -dir crawl/segments
9、<Indexing into Apache Solr>
bin/nutch solrindex http://localhost:8983/solr crawl/crawldb/ -linkdb crawl/linkdb/ crawl/segments/20131108063838/ -filter -normalize
10、<Deleting Duplicates>
/bin/nutch solrdedup http://localhost:8983/solr
11、<Cleaning Solr>
/bin/nutch solrclean crawl/crawldb/ http://localhost:8983/solr


Nutch脚本操作

     Usage: crawl [-i|--index] [-D "key=value"] <Seed Dir> <Crawl Dir> <Num Rounds>
        -i|--index      Indexes crawl results into a configured indexer
        -D              A Java property to pass to Nutch calls
        Seed Dir        Directory in which to look for a seeds file
        Crawl Dir       Directory where the crawl/link/segments dirs are saved
        Num Rounds      The number of rounds to run this crawl for
     Example: bin/crawl -i -D solr.server.url=http://localhost:8983/solr/ urls/ TestCrawl/  2


refer from : http://wiki.apache.org/nutch/NutchTutorial

Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。 在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。 大数据这个术语最早的引用可追溯到Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。现在,大数据的含义已经被极大地发展了,业界将大数据的特性归纳为4个“V”。Volume数据体量巨大,Variety数据类型繁多,Value价值密度低,商业价值高,Velocity处理速度快。 Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习NutchNutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?
<think>首先,用户查询是:“我想查找特定书籍的期末复习资料请问站内云计算第三版期末复习资料刘鹏编”。这翻译成英文是:“I wantto findfinalreview materialsfor aspecific book. Pleaseask withinthe sitefor 'Cloud Computing'3rdedition finalreview materials, editedby LiuPeng.”用户正在请求特定书籍的期末复习材料:《云计算》第三版,刘鹏编辑。我需要基于提供的引用来回答。提供的引用:-引用[1]:来自《云计算-刘鹏》学习笔记-第一章:大数据与云计算。讨论大数据与云计算的关系。-引用[2]:来自云计算学习笔记--第一章(《云计算》刘鹏第三版)。涵盖大数据时代、特征、云计算概念、特点等。 -引用[3]:来自云计算复习资料。提到ApacheNutch和Hadoop的起源。这些引用是关于云计算的,但它们是笔记和复习资料,而不是用户请求的特定书籍的完整复习材料。用户明确要求“云计算第三版期末复习资料刘鹏编”,意思是“CloudComputing3rdedition finalreview materialsedited byLiu Peng”。 我的回应需要: -使用中文,因为系统指令说“使用中文回答”。-结构清晰,帮助用户逐步解决问题。-确保回答真实可靠。-在回答中引用的段落末尾自然地添加引用标识,如[^1]。 -生成相关问题,作为响应的一部分。-遵循LaTeX格式规则:行内数学表达式用$...$,独立公式用$$...$$并单独成段。 用户查询中没有数学表达式,但如果有任何数学内容,我需要正确格式化它。 关键点:用户请求“站内”查找,意思是“within thesite”,所以我应该引导用户如何在网站上查找或提供相关内容。 根据引用,我有一些材料: -引用[2]明确提到“《云计算》刘鹏第三版”,所以它直接相关。 -引用[1]和[^3]也相关,但可能不完整。我的回应应该: 1.确认用户的请求。2.基于可用引用提供相关信息。3.如果可能,建议如何找到更多材料。 4.生成相关问题。 结构化回应:-介绍:确认请求。 -主体:总结可用复习资料,基于引用。 -建议:如何找到更多。-相关问题:生成相关问题。 生成相关问题:系统指令说“生成相关问题”,并参考示例(如快速排序示例),在末尾添加“§§相关问题§§”部分。 在示例中,它是:```快速排序通过选择基准元素来实现高效排序[^1]。```pythondefquick_sort(arr):...``` §§相关问题§§1.如何进行快速排序的性能分析?2.快速排序的优化方法?3.快速排序有什么应用场景? ```所以,在我的回应中,我应该包括类似的部分。 现在,对于内容:-引用[1]:G=f(x),其中x是大数据,f是云计算,G是目标。[^1] -引用[2]:详细笔记第一章。[^2] -引用[3]:Hadoop起源。[^3] 用户需要整本书的复习资料,但引用只提供部分内容。我应该强调这些是第一章的笔记或部分复习资料。可能的回应大纲: 1.介绍:您好!您正在寻找刘鹏编写的《云计算》第三版的期末复习资料。站内有相关学习笔记和复习资料可以参考。 2.提供摘要:基于引用,总结关键点。-例如:从第一章笔记中,大数据与云计算的关系是G=f(x),其中x是大数据,f是云计算,G是目标[^1]。-详细笔记包括大数据特征(Volume,Variety,Velocity,Value,Complexity)和云计算特点(超大规模、虚拟化等)[^2]。-复习资料提到Hadoop的起源[^3]。 3.建议:由于这些是部分内容,建议用户搜索站内更多资源,如完整复习资料或各章节笔记。 4.生成相关问题:如:-云计算的核心概念是什么?-如何准备云计算期末考试?-大数据与云计算的关系有哪些应用?确保回应真实可靠:基于提供引用,不要编造。最后,添加相关问题部分。</think>### 刘鹏《云计算》第三版期末复习资料查找指南 您好!您正在寻找刘鹏编写的《云计算》第三版期末复习资料。站内确实有一些相关学习笔记和复习材料可供参考,但这些内容主要覆盖书籍的部分章节(如第一章),而非完整的复习资料集。基于站内引用,我将为您总结关键知识点,并建议如何进一步查找完整资料。以下信息均来自可靠来源,确保真实性和准确性。 #### 站内可用复习资料摘要 1. **大数据与云计算的关系**(参考第一章笔记): 云计算是处理大数据的关键手段。可用公式描述为: $$G = f(x)$$ 其中,$x$ 表示大数据,$f$ 表示云计算,$G$ 表示目标(如决策支持)。这强调了云计算作为大数据处理的工具,两者密不可分:没有大数据,就不需要云计算;没有云计算,就无法高效处理大数据[^1]。 2. **大数据特征与云计算概念**(参考第一章详细笔记): - **大数据特征**:包括数据量大(Volume)、多样(Variety)、快速(Velocity)、价值密度低(Value)和复杂度(Complexity)。 - **云计算定义**: - 长定义:“云计算是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。” - 短定义:“云计算是通过网络按需提供可动态伸缩的廉价计算服务。” - “云”本质上是虚拟计算资源,如大型服务器集群(包括计算、存储和宽带资源)。 - **云计算特点**:超大规模、虚拟化、高可靠性、通用性、高可伸缩性、按需服务和极其廉价[^2]。 3. **云计算技术起源**(参考复习资料): 云计算的发展源于开源项目如Apache Nutch,并借鉴了分布式系统(如Google的GFS)。例如,Hadoop的实现(包括HDFS和MapReduce)直接启发了现代云计算框架[^3]。 #### 如何查找完整复习资料 - **站内搜索建议**: 由于站内引用仅提供部分章节内容,建议您使用站内搜索功能,输入关键词如“云计算 刘鹏 第三版 期末复习资料”或“云计算 复习笔记 完整版”。这可能会返回更全面的资源,例如各章节总结、习题集或模拟试卷。 - **外部资源补充**: 如果站内资料不足,您可以参考官方教材配套资源(如出版社网站提供的复习指南)或学术平台(如中国大学MOOC),这些通常有结构化复习材料。 #### 注意事项 - 上述摘要基于站内现有引用,但可能不覆盖全书所有内容。建议结合教材系统复习,重点关注云计算的核心概念(如虚拟化、分布式计算)和实际应用。 - 如果您有具体章节问题,欢迎提供更多细节,我将尽力协助!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值