北邮bbs爬取阶段性总结

总体来说,功能是实现了,大体python 代码400行左右,但是和一个真正的爬虫还差远,只能算是一个定制化的信息抓取的程序。而后台检索是用开源的coreseek,所以整体来说,跟我没啥关系。

下面简单的阐明下流程:

  1. bbs 有很多栏目,在seed文件中手工输入要爬取栏目的rss地址;
  2. 读入rss地址,分析里面的链接和内容,这里是用beatifulsoup 来做的 ,并插入数据库,当然不会爬取相同的页面
  3. 之后去除html的标签 放在数据库某个字段中
  4. coreseek 安装,并配置conf 文件,使其index 我爬下来的东西,coreseek 自己集成了mmseg 这个分词软件,所以分词也不用管了
  5. 写两个web页面,python 写的,使其 可以连接coreseek 的search 程序,查询关键字,并返回相应的信息,提取其中的id,然后从数据库中取出命中的链接,然后在搜索结果上显示。

细细想来,真正核心的东西不多,稍微有点亮点的东西

  • beatifulsoup 解析标签,快速学习,快速使用这个东西
  • 写了一些脚本,包括shell的 ,算是再次熟悉了一些东西
中途出现一个小插曲,自己周五把卡丢了,当时在失物招领的版块里一个一个打开页面,找我的名字,觉得挺麻烦的 ,然后在搜索页面搜我的名字,或一卡通,确实搜出了一些信息,

那么这个东西算是告一段落,下周要忙下公司和公开课的事情,这个代码算是一个demo,以后再继续完善。


原始博客地址: 点击
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值