python入门——P54论一只爬虫的自我修养1

转角的喵

于 2020-07-20 08:33:41 发布

阅读量127

点赞数

分类专栏： python入门爬虫文章标签： python

本文链接：https://blog.youkuaiyun.com/qq_41902836/article/details/107141634

版权

python入门同时被 2 个专栏收录

17 篇文章

订阅专栏

爬虫

1 篇文章

订阅专栏

本文详细解析了URL的一般格式，包括其组成部分：协议、主机名或IP地址及资源具体地址，并通过Python代码示例展示了如何使用urllib库获取网页内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

URL的一般格式为（带方括号[]的为可选项）：
protocol://hostname[:port]/path/[;parameters][?query]#fragment
URL由三部分组成：
第一部分是协议：http, https, ftp, file, ed2k
第二部分是存放资源的服务器的域名系统或IP地址（有时候要包含端口号，各种传输协议都有默认的端口号，如http的默认端口为80）
第三部分是资源的具体地址，如目录或文件名等

import urllib.request as ur             #导入包
response = ur.urlopen("https://www.51xuexiaoyi.com/timu/17ad549bdb314941.html") #获得网站内容
html = response.read()                  #读取内容
html = html.decode("utf-8")             #进行解码
print(html)                             #打印