原本用了Awstat 统计 。查看蜘蛛日志,好像没那么方便,就顺便弄了个shell 每隔1个小时自己运行一次
然后顺便加了etc目录的完整性校验。
#!/bin/bash
# start BaiduSpider
LOGPATH="/var/web/wwwadmin/log"
MD5TMP="/var/web/wwwadmin/log/tmp"
OMD5="/data/md5/etc.md5"
APACHELOG="/var/log/apache2"
TIME=$(date +%Y%m%d)
FILE=$APACHELOG/access.log.$TIME
mkdir -p $LOGPATH/baiduSpider/
mkdir -p $LOGPATH/php/
cd $LOGPATH/baiduSpider/
if [[ -f $TIMME.log ]] ;then
rm -rf $LOGPATH/baiduSpider/$TIME.log
fi
cd $LOGPATH/php/
if [[ -f $TIMME.log ]] ;then
rm -rf $LOGPATH/php/$TIME.log
fi
sleep 3
#格式处理
cat $FILE |grep "baidu" |grep -E -v "jpg|gif|png|js|css|jpeg"|awk '{print $1,$4,$5,$6,$7,$8,$9,$14,$15}' > $LOGPATH/baiduSpider/$TIME.log
cat $FILE |grep ".php" |grep -E -v "jpg|gif|png|js|css|jpeg"|awk '{print $1,$4,$5,$6,$7,$8,$9,$14,$15}' > $LOGPATH/php/$TIME.log
#BaiduSpider End
#Start etc Md5
sleep 5
mkdir -p $LOGPATH/md5/ $LOGPATH/tmp/
cd $LOGPATH/md5/
if [[ -f $TIMME.log ]] ;then
rm -rf $LOGPATH/md5/$TIME.log
fi
sleep 3
find /etc/ -type f -exec md5sum {} \; > $MD5TMP/$TIME.md5
diff $OMD5 $MD5TMP/$TIME.md5 > $LOGPATH/md5/$TIME.log
sleep 5
exit 0
"baiduSpider.sh" 38L, 1093C
然后给个管理后台 查看 /var/web/wwwadmin/下面的log 可以了
本文介绍了一个用于分析百度蜘蛛爬取记录及进行文件完整性检查的Shell脚本。该脚本每小时执行一次,从Apache日志中筛选出百度蜘蛛访问记录,并排除图片等静态资源。同时,它还监控/etc目录下的文件变化。

被折叠的 条评论
为什么被折叠?



