昨天编译了nutch,并且可以抓取网页,今天就试着搭建tomcat和搜索引擎solr,这两个都是在apach网站上下的执行文件,下面是大概的搭建步骤
1 apach网站http://apache.dataguru.cn/lucene/solr/3.6.0/下载apache-solr-3.6.0.zip
2 apach网站 http://archive.apache.org/dist/tomcat/tomcat-6/v6.0.36/bin/下载apache-tomcat-6.0.36.tar.gz
3 解压apache-tomcat-6.0.36.tar.gz,tomcat的运行比较简单,直接在tomcat的解压目录下运行bin/catalina.sh start就可以跑起来,不需要额外的配置
4 要将solr配置到tomcat上,需要做一些简单的配置,参照网上的一些资料,首先,解压solr, 然后cp dist/apache-solr-3.6.0.war tomcat/webapps/solr.war #复制加更名
5 tomcat/conf/server.xml关键配置如下
1 | <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" URIEncoding="UTF-8"/> |
1 | <Host name= "localhost" appBase= "webapps" unpackWARs= "true" autoDeploy= "true" xmlValidation= "false" xmlNamespaceAware= "false" > |
6 新建配置文件tomcat/conf/Catalina/localhost/solr.xml
内容输入:
1 | <Context docBase="war包的全路径tomcat/webapps/solr.war" debug="0" crossContext="true" > <Environment name="solr/home" type="java.lang.String" value="/opt/solr/example/solr" override="true" /> </Context> |
将下载的solr包中/example/solr/统统复制到/opt/solr/example/solr中,这个路径自己选,必须和solr/home一致。
7 基本配置都已经完成,然后启动tomcat,在浏览器中输入http://localhost:8080/solr/admin看看能否访问。 如看到如下界面:恭喜你,solr安装成功。
更多的配置需要再学习solr,下一步的工作是要将nutch的爬行数据用solr搜索并显示出来。
备注:今天在公司服务器上运行tomcat,出现了java.net.BindException: Cannot assign requested address错误,原因是前段时间配置hadoop的时候
更改过/etc/hosts文件,于是将hosts文件里面的127.0.0.1那一行打开就可以了