总体来说,功能是实现了,大体python 代码400行左右,但是和一个真正的爬虫还差远,只能算是一个定制化的信息抓取的程序。而后台检索是用开源的coreseek,所以整体来说,跟我没啥关系。
下面简单的阐明下流程:
- bbs 有很多栏目,在seed文件中手工输入要爬取栏目的rss地址;
- 读入rss地址,分析里面的链接和内容,这里是用beatifulsoup 来做的 ,并插入数据库,当然不会爬取相同的页面
- 之后去除html的标签 放在数据库某个字段中
- coreseek 安装,并配置conf 文件,使其index 我爬下来的东西,coreseek 自己集成了mmseg 这个分词软件,所以分词也不用管了
- 写两个web页面,python 写的,使其 可以连接coreseek 的search 程序,查询关键字,并返回相应的信息,提取其中的id,然后从数据库中取出命中的链接,然后在搜索结果上显示。
细细想来,真正核心的东西不多,稍微有点亮点的东西
- beatifulsoup 解析标签,快速学习,快速使用这个东西
- 写了一些脚本,包括shell的 ,算是再次熟悉了一些东西
中途出现一个小插曲,自己周五把卡丢了,当时在失物招领的版块里一个一个打开页面,找我的名字,觉得挺麻烦的 ,然后在搜索页面搜我的名字,或一卡通,确实搜出了一些信息,
那么这个东西算是告一段落,下周要忙下公司和公开课的事情,这个代码算是一个demo,以后再继续完善。
原始博客地址:
点击