Python与互联网交互全解析
1. 互联网交互基础
互联网几乎汇聚了全球所有的知识,我们日常大多通过网页浏览器(如Safari、Google Chrome、Firefox、Opera、Internet Explorer或Edge)来访问网页获取信息。访问网页时,只需在浏览器地址栏输入统一资源定位符(URL)并回车,或者点击链接即可自动跳转。
除了使用浏览器浏览网页,我们还能通过编程方式访问网页内容。例如,使用Python等编程语言向网页发布信息以及获取网页信息,让互联网成为我们的个人知识数据库,应用程序可以随意从中提取信息。接下来将介绍用Python以编程方式访问网页的两个主要模块: urllib 和 BeautifulSoup 。
1.1 网页工作原理
当打开浏览器输入URL或点击链接时,会向互联网发送请求。互联网将请求导向相应的网页服务器,服务器再将响应发送回我们的计算机。通常响应是一个网页,但也可能是其他文件,若请求的资源不存在,会返回错误消息。在这个过程中,用户(人类)和用户代理(用于访问互联网的程序)处于客户端,服务器(一台计算机)则返回响应。
graph LR
A[客户端] -->|发送请求| B(互联网)
B -->|导向请求| C[服务器]
C -->|返回响应| A
1.2 神秘的URL
URL是访问网页的关键,互联网通过它找到我们所需的资源。大多数网页资源使用超文本传输协议(HTTP),其URL以
超级会员免费看
订阅专栏 解锁全文

1万+

被折叠的 条评论
为什么被折叠?



