【Python语言速回顾】——爬虫基础知识

二象性Libo

已于 2023-12-14 15:07:22 修改

阅读量436

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Python语言【全家桶】各专栏汇总文章标签： python 开发语言

于 2023-11-01 17:03:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_51658186/article/details/134164879

【全家桶】各专栏汇总同时被 2 个专栏收录

110 篇文章 ¥159.90 ¥299.90

订阅专栏

超级会员免费看

6 篇文章

订阅专栏

本文介绍了爬虫的基本概念，包括爬虫的类型（通用、聚焦、增量式和深层）、原理以及如何使用Python的Requests、BeautifulSoup和Lxml库进行网页抓取和解析。详细讲解了Requests库的各种方法和BeautifulSoup/Lxml库的基本操作。

目录

一、爬虫概述

1、准备工作

2、爬虫类型

3、爬虫原理

二、爬虫三大库

1、Requests库

2、BeautifulSoup库

一、爬虫概述

爬虫又称网络机器人，可以代替人工从互联网中采集、整理数据。常见的网络爬虫主要有百度公司的Baiduspider、360公司的360Spider、搜狗公司的Sogouspider、微软的Bingbot等。

1、准备工作

爬取一个站点之前，需要大致了解站点规模和结构。站点自身的robots.txt和sitemap文件都能为我们提供帮助。
①robots文件：一般大部分站点会自定义自己的robots文件，以便引导爬虫按照自己的意图爬取相关数据。robots文件能使我们了解该站点的限制条件，提升爬取成功率；也可了解到站点结构，使我们有针对性地设计程序。
②sitemap文件：呈现了整个站点的组成结构，可根据需求定位需要的内容；但是该文件可能存在更新不及时或不完整的情况。
③估算站点规模：目标站点的大小会影响爬取的效率，通常可通过百度搜索引擎百度搜索引擎site关键字过滤域名结果，获取相关
统计信息（如在www.baidu.com搜索框输入“site:目标站点域名”）

2、爬虫类型

按照实现的技术和结构可分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。实际的网络爬虫系统是由它们组成的。
①通用网络爬虫：又称全网爬虫，主要由初始URL集合、URL队列、页

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

二象性Libo 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。