
python爬虫
苏菲兔子和魔法师小麦
请你再讲一遍,关于那天,抱着盒子的姑娘和擦汗的男人
展开
-
python简单爬取热门文字段子并自动浏览
最近刚学python的爬虫,意外找到转自崔庆才老师的爬虫实战教程,觉得不错。这里是我的学习笔记,更好的教程在:http://python.jobbole.com/81351/ (不知道为什么,在学校登不进崔老师的博客,所以放一份伯乐在线网的转载)实战目标 1.用requests模板抓取糗百热门的段子 2. 过滤所有带图片的段子 3 设定想浏览的页数、设定每隔多少时间刷新下个段子原创 2015-10-20 22:28:48 · 9679 阅读 · 0 评论 -
[PYTHON]-用Scrapy爬虫遍历百度贴吧,本地保存文字版【PART 1】
来自某SYSU中山不放假大学,初级新手的python自学之路啊。。。泪目,做一个Scrapy教程方便跟我一样的新人吧,整天百度太累人了!之前用python的requests模块做了爬糗百、贴吧(单帖)、中大教务系统的选课结果查询的小project,其实运用的都是最基本的爬虫,在还是再强调一下requests模块真的比urllib好用多了,真心推荐大家去学习一下,可以节约你背urllib函数的很大功夫原创 2015-10-24 00:52:05 · 18675 阅读 · 0 评论 -
[PYTHON]-用Scrapy爬虫遍历百度贴吧,本地保存文字版【PART 2】
这里紧接着上一节的内容讲: 上一节在这里:http://blog.youkuaiyun.com/xiaomai_sysu/article/details/49372711上次我们定义了item.py\pipelines.py\settings.py,了解了布隆过滤。今天我们定义重头戏:定义蜘蛛我们首先在脑海里回想一下我们的目标:抓取所有的《中山大学吧》帖子标题+内容我们先来到百度贴吧的中山大学主页。我们看到,原创 2015-10-24 11:11:22 · 8048 阅读 · 0 评论 -
[python和大数据-1]利用爬虫登录知乎进行BFS搜索抓取用户信息本地mysql分析【PART1】
某某孙逸仙魔法大学计科的python新手撰写,最近被前女友劈腿,我心里几乎是崩溃的,于是找了点时间做了做这个知乎的项目,写一些东西作为笔记。表示楼主在网上看到这个:我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告 http://it.taocms.org/07/8326.htm想着自己也完全有能力做一些类似的project,于是楼楼拿出自己封存半年的知乎帐号开始了爬虫之旅。 作者原创 2015-10-31 17:30:26 · 20048 阅读 · 2 评论 -
python多线程之Queue
Queue模块实现了多生产者多消费者队列, 尤其适合多线程编程.Queue类中实现了所有需要的锁原语(这句话非常重要), Queue模块实现了三种类型队列:转载 2016-04-09 03:19:23 · 15088 阅读 · 1 评论