
网络爬虫
文章平均质量分 93
基于python实现的网络爬虫
十八岁讨厌编程
没事就喜欢画思维导图
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
动态网页Reptile
文章目录引入Network什么是 XHR什么是 JSON如何让解析JSON获取多页数据静态、动态网页爬虫总结引入我们在使用静态网页爬取方法的时候可能会发生一个问题,有些数据在网页开发者工具中(F12)中存在,而在网页源代码中却没有。这是因为,例如像电影评论这样的信息是瞬息万变的,可能短短数小时内就多出几百、上千条。如果将每条评论的数据,都通过 HTML 代码的形式写进网页中,那么评论每发生一次变化,就要相应地改变代码,非常繁琐。那这种实时改变的数据是怎样展现到我们面前的呢?网页可以通过 API 获原创 2022-05-08 17:52:27 · 1138 阅读 · 11 评论 -
静态网页爬虫②
文章目录爬取整个网站反爬虫判别身份IP 限制robots.txt爬取整个网站为了爬取整个网站,我们得先分析该网站的数据是如何加载的。还是以豆瓣读书为例,当我们点击第二页后,观察浏览器的地址栏,发现网址变了。网址变成了 https://book.douban.com/top250?start=25,和原来相比后面多了一个 ?start=25。这部分被称为 查询字符串,查询字符串作为用于搜索的参数或处理的数据传送给服务器处理,格式是 ?key1=value1&key2=value2。? 前面是原创 2022-05-07 19:23:34 · 2305 阅读 · 1 评论 -
静态网页爬虫①
文章目录处理数据解析数据提取数据find() 方法和 find_all() 方法Tag对象CSS选择器静态网页爬虫的过程处理数据前面我们说过了通过 requests 库获取数据,这里我们要说如何处理数据处理数据我们需要用到一个强大的第三方库——BeautifulSoup !“美味的汤,绿色的浓汤,在热气腾腾的盖碗里装!谁不愿意尝一尝,这样的好汤?晚餐用的汤,美味的汤!”BeautifulSoup 库的名字取自刘易斯·卡罗尔在《爱丽丝梦游仙境》里的同名诗歌。就像它在仙境中的说法一样,Beautifu原创 2022-05-07 18:08:44 · 3605 阅读 · 38 评论 -
初识爬虫③ -网页基础
文章目录重识网页网页开发HTML 元素HTML 常见元素属性重识网页网页的本质是 HTML,当我们用浏览器打开某个网页的时候,浏览器用适合人类阅读的方式呈现出来了。爬虫要解析的就是 HTML,熟悉 HTML 语法后你就可以在解析 HTML 上游刃有余。前面我们讲过,向浏览器中输入某个网址后,浏览器会向服务器发出请求,然后服务器就会作出响应。其实,服务器返回给浏览器的这个结果就是 HTML 代码了。而紧接着,浏览器会根据这个 HTML 代码,解析成我们所能看见的漂亮网页。通过右键点击 显示网页源原创 2022-05-07 17:33:00 · 798 阅读 · 0 评论 -
初识爬虫② - 爬虫初使用
文章目录爬虫初体验Requests库requests.get() 方法Response 对象res.status_coderes.textres.contentres.encoding编码发展史附:文件操作爬虫初体验首先我们要知道爬虫中最常用的发起请求的第三方库——requests。requests 的中文文档(https://requests.kennethreitz.org/zh_CN/latest/)如果我们想在自己的电脑上安装,可以通过在命令行中输入 pip install requ原创 2022-05-07 17:06:15 · 983 阅读 · 0 评论 -
初识爬虫①
文章目录什么是网络爬虫浏览器的工作原理爬虫的工作原理什么是网络爬虫网络爬虫,简称爬虫,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。爬虫做的事情其实和蜘蛛是类似的,所以网络爬虫也被称为网络蜘蛛(spider)。蜘蛛在蜘蛛网上爬来爬去,把触手伸到蜘蛛网获取食物,而网络爬虫则是在互联网上爬来爬去,爬取我们需要的数据。虽然你只是刚开始学习爬虫,但在生活中其实你已经在很多地方使用过爬虫了。比如当你想知道“爬虫能干什么”,于是打开搜索引擎搜索“爬虫能干什么”。搜索结果如下图所示:搜索引擎本质原创 2022-05-07 16:03:43 · 759 阅读 · 1 评论