Python3网络爬虫(一)：利用urllib进行简单的网页抓取

最新推荐文章于 2022-11-18 08:49:21 发布

python学习站

最新推荐文章于 2022-11-18 08:49:21 发布

阅读量562

点赞数 1

CC 4.0 BY-SA版权

分类专栏： python爬虫文章标签： python教程 python视频 python自学 python零基础 python学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44558127/article/details/88242575

本文介绍了Python3网络爬虫的基础知识，包括预备知识如Python3.x基础知识和开发环境搭建，网络爬虫的定义，以及如何使用urllib.request模块进行简单网页抓取。通过实例展示了如何打开URL、读取网页信息并自动获取网页编码方式，为Python爬虫学习者提供了入门指导。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

运行平台：Windows
Python版本：Python3.x
IDE：Sublime text3

最近开始整理python的资料，博主建立了一个qq群，希望给大家提供一个交流的同平台 78486745 。

一、预备知识

1.Python3.x基础知识学习：

2.开发环境搭建：

二、网络爬虫的定义

网络爬虫，也叫网络蜘蛛(Web Spider)，如果把互联网比喻成一个蜘蛛网，Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的，也就是URL。举一个简单的例子，我们在浏览器的地址栏中输入的字符串就是URL，例如：https://www.baidu.com/。

URL就是统一资源定位符(Uniform Resource Locator)，它的一般格式如下(带方括号[]的为可选项)：

protocol : // hostname[:port] / path / [;parameters][?query]#fragment

URL的格式由三部分组成：

(1)protocol：第一部分就是协议，例如百度使用的就是https协议；

(2)hostname[:port]：第二部分就是主机名(还有端口号为可选参数)，一般网站默认的端口号为80，例如百度的主机名就是www.baidu.com，这个就是服务器的地址;

<

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。