Python入门爬虫
文章平均质量分 67
acarsar
在代码的海洋里摸鱼
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
center爬取猫眼热映口碑榜电影center
爬取猫眼热映口碑榜电影1. 分析网页源码 可以看到,每个电影的信息以<dd></dd>分割,所以编写正则可以将范围缩小到这一块,然后在根据自己的需要编写正则表达式,在这里,我们获取前十电影的名字。 <dd> <i class="board-index board-index-1">1<...原创 2018-12-04 21:41:25 · 256 阅读 · 0 评论 -
利用解析库解析豆瓣图书top250图书信息
提取网页信息时用正则表达式还是比较繁琐,而且正则表达式太复杂时,有时还会出错,我们爬取的信息大多都是网页信息,网页HTML节点(标签)中定义了大量的id和class属性,而且节点之间还有层级关系。所以可以用解析库来解析信息。三种解析库:xpathBeautiful SoupPyQuery利用解析库解析豆瓣图书top250信息并将解析的信息保存到本地。1. 分析豆瓣图书t...原创 2018-12-22 18:54:37 · 1423 阅读 · 0 评论 -
Python爬虫爬取Ajax加载的百度图库
Ajax 是一种用于创建快速动态网页的技术, 是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。Ajax用一句话来说就是不需要刷整个新页面即可从服务器取得数据(局部刷新)今天通过在百度图片中输入汽车,然后爬取搜索到的图片,并保存到本地目录来认识Ajax。1. 分析百度图片网站找到真正的请求地址url在百度图片上输入**“汽车”**后,右键检查,选择Network中的XHR...原创 2018-12-22 23:00:23 · 858 阅读 · 1 评论 -
Python基础爬虫-爬取百度翻译
爬取百度翻译这种网站的特点就是在不刷新整个页面,或者不改变网址的情况下,局部刷新网页,通过异步加载方式返回json格式的数据。一. 分析网址 百度翻译网址:https://fanyi.baidu.com 当我们输入一个单词时,例如“wolf”,可以发现整个网页的地址没有变化,只是局部刷新了。按f12键打开抓包工具,选择Network中的XHR选项后,重新输入可以发现从服务器返回了一些j...原创 2018-12-23 20:29:03 · 6697 阅读 · 7 评论
分享