python3网络爬虫开发实践-开发环境的配置

文章介绍了Python爬虫的基本步骤,包括抓取页面、分析页面和存储数据。在抓取阶段,提到了requests、selenium和aiohttp库,其中requests用于HTTP请求,selenium用于浏览器自动化,aiohttp则提供了异步请求功能。解析库如lxml、BeautifulSoup和pyquery用于从HTML中提取信息。文章还提及了数据库(如MySQL、MongoDB)的选择和Python数据库接口(PyMySQL、PyMongo)的安装,以及Web服务框架如Flask和Django的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬虫可以简单分为几步:1.抓取页面 2.分析页面 3.存储数据

在抓取页面的过程中,我们需要模拟浏览器向服务器发出请求,所以需要用到一些python库来实现HTTP请求操作。我们用到的第三方库一般有requests , selenium 和 aiohttp 。

  • requests用来向浏览器发出请求
  • selenium是一个自动化测试工具,利用其我们可以驱动浏览器执行特定的动作,如点击,下滑等
  • aiohttp是一个提供异步Web服务的库。因为requests库是一个阻塞的HTTP请求库,当我们发出一个请求以后,程序会一直等待服务器响应,直到得到响应后,程序才会进行下一步处理。这个过程是比较耗费时间的。使用异步请求库进行数据抓取时,会大大提高效率。

1.安装python3。建议通过Anacondaa安装,其提供python的科学计算环境,自带了python以及常用的库


2.请求库的安装

  • requests的安装
//在cmd命令下
pip install  requests
  • selenium库的安装
//在cmd命令下
pip3 install selenium

//安装好selenium库,因为其是一个自动化测试工具,需要配合浏览器来使用,所以我们可以安装对应浏览器的驱动
//本文选用chrome浏览器,安装chromedriver驱动
1.首先确保已经安装好了chrome浏览器
2.点击chrome菜单 “帮助” -> “关于Google Chrome”,查看Chrome的版本号 ,我的是97.0
3.打开ChromeDriver的官网,下载对应的chromedriver,在notes.txt文件中查看支持的chrome版本
4.下载完成后,测试一下安装
  • aiohttp库的安装
//在cmd下
pip install aiohttp

3.解析库的安装

抓取网页代码后,下一步就是从网页中提取出信息。提取信息的方式很多,可以使用正则来提取。我们还可以使用许多强大的解析库,如lxml , Beautiful Soup ,pyquery等。 利用他们,我们可以高效便捷地从网页中提取有效信息。

  • lxml的安装:lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式。
//在cmd下
pip install lxml
  • Beautiful Soup的安装:其是python的一个HTML或XML的解析库,可以方便得从网页中提取数据。
//在cmd下
pip install beautifulsoup4
  • pyquery的安装:其同样是一个强大的网页解析工具
//在cmd下
pip install pyquery

4.数据库的安装

作为数据存储的重要部分,数据库同样是必不可少的,数据库可以分为关系型数据库和非关系型数据库。

关系型数据库:其数据库是以表的形式存储;例如:MySQL
非关系型数据库:存储形式是键值对,存储形式更加灵活;例如:MongoDB , Redis

具体安装过程可自行查阅


5.存储库的安装

在4中,我们安装了几个数据库,但这仅仅是用来存储数据的数据库。如果想要和python进行交互的话,还需要安装一些python存储库。

例如MySQL需要安装PyMySQL。
MongoBD需要安装PyMongo。

//在cmd下
pip install pymysql

pip install pymongo

6.Web库的安装

我们使用Web服务程序来搭建一些API接口,供我们爬虫使用。例如:Flask, Django

  • Flask的安装:Flask是一个轻量级的Web服务程序。
pip3 install flask

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值