(转载)Redhat Linux Enterprise 5.4下Nutch1.0的配置

本文详细记录了从环境搭建到成功运行Nutch爬虫的全过程,包括JDK、Tomcat及Nutch的安装配置步骤,并针对具体配置进行了说明。
从昨天下午到今天上午,共花了一天的时间,终于把偶的Nutch运行成功了。
记录下这个过程。
1.从官网上分别下载jdk1.6.0,apache-tomcat-6.0.24,nutch1.0.
2.安装jdk1.6.0包,直接运行即可。
3.解压缩tomcat,用tar -xvf apache-tomcat-6.0.24.tar.gz
4.解压缩nutch,同3.
5.添加环境变量
其中jdk我下的是bin包,运行后只是解压缩而已,
所以需要在/etc/profile中添加环境变量
我的是这样的:
export JAVA_HOME=/usr/dev/jdk1.6.0
export JAVA_BIN=/usr/dev/jdk1.6.0/bin
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export TOMCAT_HOME=/usr/dev/apache-tomcat-6.0.24
export JAVA_HOME JAVA_BIN PATH CLASSPATH TOMCAT_HOME
6.logoff 系统,重新登录,环境变量就生效了。
7.配置nutch.
1)cd到nutch根目录,vi url.txt,在url.txt输入要crawl的网址,比如我用的是http://blog.youkuaiyun.com/zjzcl
2)cd conf,vi nutch-site.xml, 修改如下:
Java代码
<configuration>
<property>
<name>http.agent.name</name>
<value>HD nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.0</value>
</property>
</configuration>

<configuration>
<property>
<name>http.agent.name</name>
<value>HD nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.0</value>
</property>
</configuration>

保存。
3)vi crawl-urlfilter.txt找到# accept hosts in MY.DOMAIN.NAME这一行,将下面的那行改成+^http://blog.youkuaiyun.com/zjzcl,保存。
8.设置好了,爬取。在nutch根目录下,输入命令:sh bin/nutch crawl url.txt -dir crawled -depth 4 -threads 5 >&crawl.log
注意:crawled文件夹不能存在。
crawl.log是记录crawl日志的文件,如果搜索不成功,有可能是爬取的问题,可以从这里找到问题所在。我第一次搜索就没有成功,是爬取的问题。
9.在tomcat里测试。
1)用vi命令将$TOMCAT_HOME/conf/server.xml的connector修改为:
Java代码
<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false"
protocol="HTTP/1.1"
redirectPort="8443" acceptCount="100" connectionTimeout="20000" disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true" />

<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false"
protocol="HTTP/1.1"
redirectPort="8443" acceptCount="100" connectionTimeout="20000" disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true" />


保存。
2)将webapps下的ROOT改为ROOT1.
3)用cp命令将nutch根目录下的war包复制到$TOMCAT_HOME/webapps下并将其改名为ROOT.war
此时启动tomcat,sh $TOMCAT_HOME/bin/startup.sh.用浏览器访问http://localhost:8080.
ROOT.war已经解开了。
4)cd到ROOT下的WEB-INF/classes,ls可以看到有nutch-site.xml,用vi命令修改如下:
Java代码
<configuration>
<property>
<name>searcher.dir</name>
<value>/usr/dev/nutch-1.0/crawled</value>
</property>
</configuration>

<configuration>
<property>
<name>searcher.dir</name>
<value>/usr/dev/nutch-1.0/crawled</value>
</property>
</configuration>

指定要搜索的目录。
5)重启tomcat,用http://localhost:8080访问,即可进行搜索。
Nano-ESG数据资源库的构建基于2023年初至2024年秋季期间采集的逾84万条新闻文本,从中系统提炼出企业环境、社会及治理维度的信息。其构建流程首先依据特定术语在德语与英语新闻平台上检索,初步锁定与德国DAX 40成分股企业相关联的报道。随后借助嵌入技术对文本段落执行去重操作,以降低内容冗余。继而采用GLiNER这一跨语言零样本实体识别系统,排除与目标企业无关的文档。在此基础上,通过GPT-3.5与GPT-4o等大规模语言模型对文本进行双重筛选:一方面判定其与ESG议题的相关性,另一方面生成简明的内容概要。最终环节由GPT-4o模型完成,它对每篇文献进行ESG情感倾向(正面、中性或负面)的判定,并标注所涉及的ESG具体维度,从而形成具备时序特征的ESG情感与维度标注数据集。 该数据集适用于多类企业可持续性研究,例如ESG情感趋势分析、ESG维度细分类别研究,以及企业可持续性事件的时序演变追踪。研究者可利用数据集内提供的新闻摘要、情感标签与维度分类,深入考察企业在不同时期的环境、社会及治理表现。此外,借助Bertopic等主题建模方法,能够从数据中识别出与企业相关的核心ESG议题,并观察这些议题随时间的演进轨迹。该资源以其开放获取特性与连续的时间覆盖,为探究企业可持续性表现的动态变化提供了系统化的数据基础。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值