
Spider
文章平均质量分 70
felcon
这个作者很懒,什么都没留下…
展开
-
利用搜狗抓取微信公众号文章
微信一直是一个自己玩的小圈子,前段时间搜狗推出的微信搜索带来了一丝曙光。搜狗搜索推出了内容搜索和公众号搜索两种,利用后者可以抓取微信公众号的最新内容,看了下还是比较及时的。 每个公众号都有一个openid,最早可以直接利用http://weixin.sogou.com/gzh?openid=***来获取页面,但改版后对openid进行了加密操作,使用原来的方法返回的数据为空。 利用httpFox原创 2015-06-02 09:54:58 · 14017 阅读 · 8 评论 -
利用MongoDB存储scrapy的数据
之前scrapy都是存储在文件中,该考虑一下数据库了。 当前工作爬取的内容(不是前面说的豆瓣小组)实际上很多都是文档型的,类似于文章+评论的样式,其中文章又包括标题、作者、地址等。使用传统关系数据库当然也可以,使用ID和外键连接就可以了。但既然有了文档型的非关系数据库,就试试吧。 选择了MongoDB,网上查了下,主要特性如下:面向集合(Collenction-Oriented):意思是数据被原创 2015-06-25 09:27:26 · 1335 阅读 · 0 评论