
python爬虫
ReScale
"Hello World!"
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《Python3网络爬虫开发实战代码》基本库使用
笔记由于使用jupyter notebook所写,放在github上,再转到csdn上,浪费太多时间,这里放上github上的.ipynb文件地址。 直接点击网址,即可查看笔记内容。 https://nbviewer.jupyter.org/github/DRNTT/Spider/blob/master/ch3/urllib模块.ipynb ...原创 2019-05-05 22:18:25 · 813 阅读 · 0 评论 -
python selenium爬取QQ空间说说
准备工作 安装selenium, pyquery, json模块。 使用的是火狐浏览器,所以还要安装geckodriver, 下载好后,把geckodirver.exe文件放在python.exe同一文件夹下即可。 如果使用chrome浏览器,需要安装chromedriver,需要对应好版本号,否则运行不起来。把下载后的chromedriver.exe放在python的Scripts文件夹下即可。...原创 2019-05-13 21:28:55 · 1018 阅读 · 0 评论 -
python爬取猫眼电影排行
完整的代码如下在这里:https://nbviewer.jupyter.org/github/DRNTT/Spider/blob/master/ch3/maoyan.py 闲着没事,把解析html中的正则方法改用了XPath与BeautifulSoup,只能说各有各的优点吧。 正则的话,提取信息可以连贯,一次性提取出所有需要的信息,当然前提是你的正则式子没有写错,所以说正则写起来相比XPath与B...原创 2019-05-06 22:21:41 · 1088 阅读 · 0 评论 -
《Python3网络爬虫开发实战代码》解析库使用
XPath模块:https://nbviewer.jupyter.org/github/DRNTT/Spider/blob/master/ch4/XPath.ipynb Beautiful Soup模块:https://nbviewer.jupyter.org/github/DRNTT/Spider/blob/master/ch4/BeautifulSoup.ipynb pyquery模块:htt...原创 2019-05-07 19:33:39 · 384 阅读 · 0 评论 -
《Python3网络爬虫开发实战代码》数据存储
数据存储:https://github.com/DRNTT/Spider/blob/master/ch5/数据存储.ipynb 爬取知乎热门话题:https://github.com/DRNTT/Spider/blob/master/ch5/zhihu.py 数据存储中,NoSQL数据库还没做,后期有时间补上。 ...原创 2019-05-12 16:27:03 · 352 阅读 · 0 评论 -
《Python3网络爬虫开发实战代码》Ajax数据爬取
Ajax:https://github.com/DRNTT/Spider/blob/master/ch6/Ajax.ipynb 爬取微博:https://github.com/DRNTT/Spider/blob/master/ch6/weibo.py 爬取头条图片:https://github.com/DRNTT/Spider/blob/master/ch6/toutiao.py ...原创 2019-05-12 16:31:26 · 268 阅读 · 0 评论 -
Ajax爬取微博
根据书上的案例写的,但是案例太老,所以案例中给的微博地址访问后,居然打开了移动端的微博页面,其余的网络请求界面,网络请求回应的数据大体上跟书上的内容一致,但是如果爬取的是现在的微博网址的话,书上的案例教程搭配不上,所以下面的代码爬取的是移动端的微博网址。 爬取结果: 原理介绍 有很多网页不是静态网页,当你直接使用get请求网页时,返回的html代码中其实没有包含任何有用的信息,那些你需要的信息还...原创 2019-05-13 09:20:07 · 557 阅读 · 0 评论