nutch 0.9在Windows下的安装

Nutch 0.9 Windows安装教程
本文介绍如何在Windows环境下安装配置Nutch 0.9版本,并使用Cygwin进行网页抓取测试,同时提供了配置Tomcat来运行Nutch的步骤。
nutch 0.9在Windows下的安装

转载自:http://www.cnblogs.com/phinecos/archive/2007/11/20/965835.html

一、环境:
1.操作系统:windowsXp,windows2000+
2.java1.6,设置JAVA_HOME到环境变量
3.cygwin,当然这个不是必需的,只是nutch提供的脚本只能在shell环境下使用,所以使用cygwin来虚拟shell命令。
4.nutch版本:0.9
5.tomcat:6.0

二、nutch的安装和配置:

1,安装Cygwin1.5.5(我这里装到d:\cygSys),将nutch解压缩后放置到一个目录下(我放在d:\nutch下)

2,在Cygwin环境下进入nutch-0.9目录下,使用命令 bin/nutch进行测试,正常的情况下出现的结果是类似于执行java命令一样,让你指定一些参数。

3,进行抓取网站的测试,以抓取http://www.163.com/为例

1) 新建一个文件myurl,在文件中输入http://www.163.com/保存,这个文件可以放在任何地方(我这个文件放在D:\nutch\home\myurl),另外再建立一个爬虫日志目录logs(我放在D:\nutch\home\logs文件夹下,真正抓取的时候在命令行里面需要指定这个目录还有具体文件名。)

2) 打开nutch-0.9\conf\nutch-site.xml文件,在<configuration></configuration>内插入以下内容:
<property>
<name>http.agent.name</name>
<value>HD nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.0</value>
</property>
3) 打开nutch-0.9\conf\crawl-urlfilter.txt文件,把MY.DOMAIN.NAME字符替换为myurl内的域名(比如我改成了“+^http://([a-z0-9]*\.)*163.com/”,其实更简单点,直接删除MY.DOMAIN.NAME这几个字就可以了,也就是说,只保存+^http://([a-z0-9]*\.)*这几个字就可以了,表示所有http的网站都同意爬行)。

4) 切换到 nutch 命令所在的bin目录,然后运行爬虫,在Cygwin输入以下命令:
./nutch crawl ../home/myurl -dir ../getContent -depth 4 -threads 5 -topN 1000 >&../home/logs/crawl1.log


../home/myurl 上面指定的爬取得URL
-dir ../getContent 爬取并分析后的索引存放目录
-depth 4 深度
-threads 5 线程数

需要注意点是在1000后面要跟一个空格,要不然会出现错误。
&../home/logs/crawl1.log 最后就是log的名字


运行结束后,你可以打开日志文件查看爬虫运行的详细过程。

5,在tomcat上运行Nutch

把nutch-0.9.war拷贝到Tomcat\webapps\下面

在浏览器中输入http://localhost:8080/nutch-0.9/这步是为了使tomcat展开nutch-0.9.war,然后修改webapps/ nutch-0.9/WEB-INF/classes/nutch-site.xml文件如下:

<configuration>
<property>
<name>searcher.dir</name>
<value>D:\\nutch\\getContent</value>
</property>
</configuration>

拷贝的时候 <configuration>标记 可不要和元配置文件里的重复啊。

为了支持中文的搜索,修改Tomcat\conf\server.xml。找到对应的地方修改成
<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443" URIEncoding="UTF-8" useBodyEncodingForURI="true"/>

在浏览器中输入http://localhost:8080/nutch-0.9,然后就可以从爬取结果里面检索了。
【无线传感器】使用 MATLAB和 XBee连续监控温度传感器无线网络研究(Matlab代码实现)内容概要:本文围绕使用MATLAB和XBee技术实现温度传感器无线网络的连续监控展开研究,介绍了如何构建无线传感网络系统,并利用MATLAB进行数据采集、处理与可视化分析。系统通过XBee模块实现传感器节点间的无线通信,实时传输温度数据至主机,MATLAB负责接收并处理数据,实现对环境温度的动态监测。文中详细阐述了硬件连接、通信协议配置、数据解析及软件编程实现过程,并提供了完整的MATLAB代码示例,便于读者复现和应用。该方案具有良好的扩展性和实用性,适用于远程环境监测场景。; 适合人群:具备一定MATLAB编程基础和无线通信基础知识的高校学生、科研人员及工程技术人员,尤其适合从事物联网、传感器网络相关项目开发的初学者与中级开发者。; 使用场景及目标:①实现基于XBee的无线温度传感网络搭建;②掌握MATLAB与无线模块的数据通信方法;③完成实时数据采集、处理与可视化;④为环境监测、工业测控等实际应用场景提供技术参考。; 阅读建议:建议读者结合文中提供的MATLAB代码与硬件连接图进行实践操作,先从简单的点对点通信入手,逐步扩展到多节点网络,同时可进一步探索数据滤波、异常检测、远程报警等功能的集成。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值