最近公司网站搞检查,发现了一些问题,一直在用的是xenu工具,速度快,小巧(写了这么多年的MFC,真的很亲切啊,呵呵)
刚好这2天才学习python,所以自己写了一个spider,逐渐也对python有了一些了解,下面把源码分享出来,大家可以玩玩看
文件是utf-8格式,但如果加了中文注释,竟然不能debug了。。。无论你是不是在文件头2行加了#encoding=utf-8等方法,有人解决了告诉我一下哦
spider.py(主程序)
mylogger.py
myHtmlParse.py
logging.config(配置档,用过log4c等的一看就明白了)
本文作者分享了自己使用Python的htmlParser模块编写的网站爬虫,该爬虫主要用于检查死链、空title,以及网站的语法错误。它可以处理站内链接,包括主站和二级站,并能过滤重复URL。爬虫依赖Python 3.2rc1及以上版本,能够检查页面错误并给出错误位置,但无法处理被重定向的死链。此外,作者还提到在Eclipse+Pydev环境下开发,并邀请读者测试源码并反馈问题。
482

被折叠的 条评论
为什么被折叠?



