Python3 爬虫神器总结

本文介绍了Python爬虫的两个基础工具:requests和BeautifulSoup。requests用于发送HTTP请求,如GET和POST,获取网页内容;BeautifulSoup则用于解析HTML,便于数据提取。文章提供了安装教程和简单示例,适合初学者入门。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关注我的公众号,有 PyCharmIDE 最新无码使用方案,更有含量资源下载!
在这里插入图片描述

前言

最近要学习python爬虫,发现无法动手,因为不知道咋解析数据,咋过滤自己需要的东东,所以一阵头大,茫茫然不知所终,于是百度,文档无所不用其极的乱找了一遍,算是大概心中有了一点基础,所以本篇将记录我所知道的爬虫需要的相关的神器,都是好东西,在日常其他的应用中也是可以用到的,下面看正文记录!

请求神器requests

首先出场的就是请求页面的工具 requests ,它的作用主要是获取网页的 HTML 信息, 当然在python3 中,你也可以使用 urllib.request , 下面简单分类介绍下这两个东东的区别

  • urllib 库是 Python 内置的,无需我们额外安装,只要安装了 Python 就可以使用这个库。
  • requests 库是第三方库,需要我们自己安装。

而 requests 库强大好用,所以我极力推荐的是使用此神器,requests 库的 github 地址:
https://github.com/requests/requests

requests安装

win系统下打开 cmd ,使用如下指令安装 requests :

pip install requests
或者:
easy_install requests

requests简单示例

requests 库的基础方法如下:

方法说明
requests.request()构造一个请求,支撑以下各方法的基础方法
requests.get()获取HTML网页的主要方法,对应于HTTP的GET
requests.head()获取HTML网页头信息的方法,对应于HTTP的HEAD
requests.post()向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.put()向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests. patch()向HTML网页提交局部修改请求,对应于HTTP的PATCH
requests.delete()向HTML页面提交删除请求,对应于HTTP的DELETE

还有其他方法就不一 一列出了,有兴趣的可以去 requests官方中文教程地址 自己去搜索了解一番吧!

解析申请 Beautiful Soup

Beautiful Soup 是 Python 的一个第三方库,主要帮助我们解析网页数据。

Beautiful Soup安装

其具体安装其实可以去官网查看,下面列出pip的安装方式:

打开win系统的 cmd,使用 pip 或 easy_install 安装即可。

pip install beautifulsoup4
# 或者
easy_install beautifulsoup4

切记一定要是 beautifulsoup4, 而不是beautifulsoup, beautifulsoup是表示版本3,而官网已经不再维护3版本了,安装默认的beautifulsoup就会报错,如下,我安装时的报错:
在这里插入图片描述

lxml安装

安装好 beautifulsoup4 后,我们还需要安装 lxml,这是解析 HTML 需要用到的依赖:

pip install lxml

Beautiful Soup 的使用方法也很简单, 不啰嗦,直接自己去 Beautiful Soup 官方中文教程 去看吧, 简单详细,可直接上手

暂时发现,拥有这两大神奇可以入门爬虫,后续会持续更新其他爬虫神器

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Fu_Lin_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值