Python爬虫笔记 | HTML基础

本文介绍了HTML的基础知识,包括查看网页HTML代码的方法、HTML的层级结构、基本组成(标签、元素、网页头和网页体)以及属性(如style、href、class和id)。通过学习,能帮助读者更好地理解和解析网页,为Python爬虫打下基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用python版本:3.7.0 64-bit

如果把HTML的学习依序分为三个层次的话,应该是读懂、修改、编写

读懂: 只有读懂了HTML,我们才能看得懂网页结构,才有可能运用Python的其他模块去解析数据和提取数据。所以想写爬虫程序的话,一定要先学好HTML基础。
修改: 在读懂HTML文档的基础上,学会修改HTML代码,是可以做些有趣的事情的。
编写: 如果达到了这个水平,那就可以去应聘前端工程师了,这是专业的程序员水平了。

HTML 基础

HTML称为超文本标记语言,是一种用来描述网页信息的标识性语言。

查看网页的HTML代码

用谷歌浏览器(Chrome)进行演示。

在网页任意地方点击鼠标右键,然后点击“显示网页源代码”。(Windows系统的电脑还可以使用快捷键ctrl+u来查看网页源代码),你会看到,浏览器弹出了一个新的标签页:
在这里插入图片描述
如图显示的就是HTML源代码。

这样查看的好处是,整个网页的源代码都完整地呈现在你面前。坏处是,在大部分情况下,它都会经过压缩,导致结构不够清晰,你不太容易懂每行代码的含义。而且,源代码和网页分开在两个页面展示。

所以更多时候,我们会用这样一种方法:
在网页的空白处点击右键,然后选择“检查”(快捷方式是ctrl+shift+i)。

这个即是 开发者工具栏:
在这里插入图片描述
上图中标亮的部分就是网页的HTML代码。

将鼠标放在HTML源代码上,你会发现,左边网页上有一些内容会被标亮。这其实就是这行代码所描述的网页内容,它们一左一右,相互对应。

HTML的层级

通过开发者工具栏,可以看出HTML会有鲜明的层级结构,以及互相对应的关系。


HTML的组成

标签和元素

最简单的HTML文档:

<html>
	<head>
		<meta charset="utf-8"> 
	</head>
    <body>
        <h1>我是一级标题</h1>
        <h2>我是二级标题</h2>
        <h3>我是三级标题</h3>
        <p>我是一个段落啦。一级标题、二级标题和我,我们三个一起组成了body。
         </p>
    </body>
</html>

标签: 夹在尖括号<> 中间的字母。

标签通常是成对出现的:前面的是 开始标签,比如< body >;后面的是结束标签,如 < /body >。

元素:</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值