首先需要新建filesystem文件夹 mkdir filesystem
在nutch的conf里面找到hadoop-env.sh进行编辑:
export HADOOP_HOME=home/admin5/nutch
export JAVA_HOME=/home/admin5/usr/java/jdk1.5.0_06 //根据具体的环境进行设置
export HADOOP_LOG_DIR=${HADOOP_HOME}/logs
export HADOOP_SLAVES=${HADOOP_HOME}/conf/slaves
设置ssh免密码验证 ssh-keygen -t rsa
cd /home/.ssh
cp id_rsa.pub authorized_keys
scp /home/.ssh/authorized_keys nutch@admin5 :/home/.ssh/authorized_keys
把nutchbin目录下的所有文件权限改成777
bin/nutch
bin/hadoop
bin/hadoop dfs
执行上面的三个命令,测试配置是否正确
配置hadoop-site.xml 文件确定主机端口号及存储的位置
bin/hadoop namenode -format 节点的格式化
bin/start-all.sh 启动所有的服务
bin/stop-all.sh 停止所有的服务
bin/hadoop dfs -put urls urls 把url放进dfs系统中
bin/hadoop dfs -rmr urls 删除dfs中的文件
bin/hadoop dfs -ls 可以使用此命令查看dfs
之后就可以使用crawl 进行抓取了