Nutch启动shell脚本分析

本文解析了Nutch在Hadoop上的启动脚本,详细介绍了如何通过脚本配置实现Nutch的不同运行模式,并强调了环境变量及参数的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Nutch笔记
1.学习nutch的启动shell脚本分析

$NUTCH_HOME/runtiom/deploy/bin/nutch

这是nutch在hadoop上运行时的启动脚本,有一个nutch.job 文件,就是把这个文件放在hadoop上运行的


如上图所示为nutch1.4的内容,所以在改变nutch 的配置文件后需要Ant重新编译,把.job文件替换。

下面开始看脚本源代码
# resolve links - $0 may be a softlink
THIS="$0"
while [ -h "$THIS" ]; do  #文件存在并是一个符号链接
  ls=`ls -ld "$THIS"`         
  link=`expr "$ls" : '.*-> \(.*\)$'`   #匹配一个链接文件
  if expr "$link" : '.*/.*' > /dev/null; then  #隐藏文件
    THIS="$link"
  else
    THIS=`dirname "$THIS"`/"$link"
  fi
done
看注释可以知道这是防止$0是软连接。
expr :求表达式变量 ,上面是正则匹配,匹配所有链接文件->
dirname :获得路径 如果是dirname /home/zal  为/home 
                                                            /home/zal/test.sh 为/home/zal

if [ $# = 0 ]; then  #很明显判断参数个数 
。。。。。。。。

# get arguments
COMMAND=$1  #运行哪个命令 nutch Crawl
shift

# some directories
THIS_DIR=`dirname "$THIS"`     #获得脚本的目录
NUTCH_HOME=`cd "$THIS_DIR/.." ; pwd`   #返回上一层目录 pwd 将nutch.job的目录找到

# some Java parameters
if [ "$NUTCH_JAVA_HOME" != "" ]; then     #设置的环境变量
  #echo "run java in $NUTCH_JAVA_HOME"
  JAVA_HOME=$NUTCH_JAVA_HOME
fi
  
if [ "$JAVA_HOME" = "" ]; then
  echo "Error: JAVA_HOME is not set."   #所以运行nutch必须要设置这两个环境变量之一
  exit 1
fi

local=true  #默认是在本地运行 看下面参数运用

# NUTCH_JOB 
if [ -f ${NUTCH_HOME}/nutch-*.job ]; then  #判断job存在与否,存在就是在hadoop上运行,最后执行的时候
                                                                             用hadoop的命令
    local=false
  for f in $NUTCH_HOME/nutch-*.job; do   #获得文件名
    NUTCH_JOB=$f;
  done
fi

# cygwin path translation
if $cygwin; then                                 #这个应该是在window环境下用的吧 
  NUTCH_JOB=`cygpath -p -w "$NUTCH_JOB"`
fi

JAVA=$JAVA_HOME/bin/java            #这个要注意设置JAVA_HOME
JAVA_HEAP_MAX=-Xmx1000m         #虚拟机所占内存吧

# check envvars which might override default args
if [ "$NUTCH_HEAPSIZE" != "" ]; then
  #echo "run with heapsize $NUTCH_HEAPSIZE"
  JAVA_HEAP_MAX="-Xmx""$NUTCH_HEAPSIZE""m"
  #echo $JAVA_HEAP_MAX
fi

# CLASSPATH initially contains $NUTCH_CONF_DIR, or defaults to $NUTCH_HOME/conf
CLASSPATH=${NUTCH_CONF_DIR:=$NUTCH_HOME/conf}
CLASSPATH=${CLASSPATH}:$JAVA_HOME/lib/tools.jar

# so that filenames w/ spaces are handled correctly in loops below
IFS=                               #IFS的全名为Internal Field Separator,用来在变量扩展后进行单词分割,其默认值是                                       
                                      #<spaces><tab><newline>
                                        #防止修改过IFS,真全面

# add libs to CLASSPATH    #在本地运行时,要把nutch用到的jar加到classpath中
if $local; then
  for f in $NUTCH_HOME/lib/*.jar; do   
   CLASSPATH=${CLASSPATH}:$f;
  done
  # local runtime
  # add plugins to classpath   #把各种插件加入classpath
  if [ -d "$NUTCH_HOME/plugins" ]; then
     CLASSPATH=${NUTCH_HOME}:${CLASSPATH}
  fi
fi

# restore ordinary behaviour
unset IFS                                                #恢复

# default log directory & file
if [ "$NUTCH_LOG_DIR" = "" ]; then
  NUTCH_LOG_DIR="$NUTCH_HOME/logs"
fi
if [ "$NUTCH_LOGFILE" = "" ]; then
  NUTCH_LOGFILE='hadoop.log'
fi

#Fix log path under cygwin
if $cygwin; then
  NUTCH_LOG_DIR=`cygpath -p -w "$NUTCH_LOG_DIR"`
fi

NUTCH_OPTS="$NUTCH_OPTS -Dhadoop.log.dir=$NUTCH_LOG_DIR"
NUTCH_OPTS="$NUTCH_OPTS -Dhadoop.log.file=$NUTCH_LOGFILE"

# figure out which class to run   #下面就是制定要执行的类 其实用case是不是好点呢
if [ "$COMMAND" = "crawl" ] ; then
  CLASS=org.apache.nutch.crawl.Crawl
。。。。。。。。。。。。。


# distributed mode   #很显然 在hadoop上运行
EXEC_CALL="hadoop jar $NUTCH_JOB"

if $local; then  #这边可以看到直接运行java命令执行类,classpath必须要指定正确,可以在
                        #local/lib下找到所有包,如果你修改了nutch源码,必须重新编译,替换下面的nutch.jar
 EXEC_CALL="$JAVA $JAVA_HEAP_MAX $NUTCH_OPTS -classpath $CLASSPATH"
else
 # check that hadoop can be found on the path    #这边hadoop_home一定要指定啊
 if [ $(which hadoop | wc -l ) -eq 0 ]; then   #以后写脚本记得判断环境变量有没有设置
    echo "Can't find Hadoop executable. Add HADOOP_HOME/bin to the path or run in local mode."
    exit -1;
 fi
fi

# run it
exec $EXEC_CALL $CLASS "$@"    #exec shell中运行命令













 
内容概要:本文档提供了关于“微型车间生产线的设计与生产数据采集试验研究”的毕业设计复现代码,涵盖从论文结构生成、机械结构设计、PLC控制系统设计、生产数据采集与分析系统、有限元分析、进度管理、文献管理和论文排版系统的完整实现。通过Python代码和API调用,详细展示了各个模块的功能实现和相互协作。例如,利用SolidWorks API设计机械结构,通过PLC控制系统模拟生产流程,使用数据分析工具进行生产数据的采集和异常检测,以及利用进度管理系统规划项目时间表。 适合人群:具有机械工程、自动化控制或计算机编程基础的学生或研究人员,尤其是从事智能制造领域相关工作的人员。 使用场景及目标:①帮助学生或研究人员快速搭建和理解微型车间生产线的设计与实现;②提供完整的代码框架,便于修改和扩展以适应不同的应用场景;③作为教学或科研项目的参考资料,用于学习和研究智能制造技术。 阅读建议:此资源不仅包含详细的代码实现,还涉及多个学科领域的知识,如机械设计、电气控制、数据分析等。因此,在学习过程中,建议读者结合实际操作,逐步理解每个模块的功能和原理,并尝试调整参数以观察不同设置下的系统表现。同时,可以参考提供的文献资料,深入研究相关理论和技术背景。
本次的学生体质健康信息管理网站,按照用户的角色可以分为教师与学生,后台设置管理员角色来对学生的信息进行管理。,设计如下: 1、后台管理系统 后台管理系统主要是为该系统的管理员提供信息管理服务的系统,具体包括的功能模块如下: (1)管理员信息管理 (2)教师信息管理 (3)学生信息管理 (4)健康信息统计(图形化进行健康,亚健康等学生的信息数量统计) 2、教师角色的功能模块设计 教师角色所需要的功能模块主要包括了如下的一些内容: (1)个人资料修改 (2)学生体质健康管理:录入相关数据,包括但不限于身高、体重、肺活量、视力等生理指标以及运动能力、身体成分、骨密度等健康指标,并且设置健康,亚健康状态 (3)学生健康建议:根据体质信息,进行学生健康的建议 (4)健康预警:对健康出问题的学生,进行健康预警 (5)饮食和锻炼情况管理,查看 3、学生角色 学生角色可以通过该信息网站看到个人的基本信息,能够看到教师给与学生的健康建议等,功能模块设计如下: (1)个人资料修改 (2)我的健康建议查看 (3)我的健康预警 (4)饮食和锻炼情况管理,记录平时的饮食和锻炼情况 完整前后端源码,部署后可正常运行! 环境说明 开发语言:Java后端 框架:ssm,mybatis JDK版本:JDK1.8+ 数据库:mysql 5.7+ 数据库工具:Navicat11+ 开发软件:eclipse/idea Maven包:Maven3.3+ 部署容器:tomcat7.5+
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值