
爬虫
南_北
这个作者很懒,什么都没留下…
展开
-
爬取猫眼电影
最近在系统的学习爬虫,为了练手,试着爬了一下猫眼的最近热播的电影。爬取猫眼电影信息不需要登录账号,省去了设置cookie等一些步骤。猫眼电影中有很多个栏目,我爬取的则是“正在热映”这个栏目(截图如下)。本次爬取用的是python的requests模块以及xpath。点击图中的“全部”即可获得该页面的url。在浏览器开发者工具下,可以看出每部电影的海报以及评分在<dl ...原创 2019-02-27 16:26:23 · 1260 阅读 · 0 评论 -
爬取今日头条
python爬取今日头条 学习爬虫有一段时间了,今天做个实战小项目,爬取今日头条的热点。很多人都喜欢刷头条, 本次将会爬取热点页面,每隔30秒抓取一次,并以追加的方式保存入文件中难度:简单工具:python:3.7(anaconda)编辑器:pycharm2019.1使用的模块:requests、json、time关于pycharm的激活,有需要的朋友可以参考我的博客:pyc...原创 2019-04-09 10:13:11 · 1913 阅读 · 0 评论 -
完美突破拉钩反爬
背景:拉钩网是一家专门提供互联网招聘的平台,反爬机制是做得很厉害的。在今年2到3月之间,做了一个比较具有迷惑性的反爬机制,导致网上99%以上的以往爬取拉钩信息的帖子都失效了。本片帖子将详细一步步进行突破,并进行详细的分析。环境:python3.6、time模块、json模块工具:pycharm、Google Chrome1、登录拉钩网,进行抓包分析。本次爬取的是java相关的职...原创 2019-05-06 22:24:31 · 534 阅读 · 0 评论