Python爬虫笔记 | HTML基础

最新推荐文章于 2024-07-02 06:05:28 发布

原创

最新推荐文章于 2024-07-02 06:05:28 发布 · 491 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#HTML 基础

本文介绍了HTML的基础知识，包括查看网页HTML代码的方法、HTML的层级结构、基本组成（标签、元素、网页头和网页体）以及属性（如style、href、class和id）。通过学习，能帮助读者更好地理解和解析网页，为Python爬虫打下基础。

使用python版本：3.7.0 64-bit

如果把HTML的学习依序分为三个层次的话，应该是读懂、修改、编写。

读懂： 只有读懂了HTML，我们才能看得懂网页结构，才有可能运用Python的其他模块去解析数据和提取数据。所以想写爬虫程序的话，一定要先学好HTML基础。
修改： 在读懂HTML文档的基础上，学会修改HTML代码，是可以做些有趣的事情的。
编写： 如果达到了这个水平，那就可以去应聘前端工程师了，这是专业的程序员水平了。

HTML 基础

HTML称为超文本标记语言，是一种用来描述网页信息的标识性语言。

查看网页的HTML代码

用谷歌浏览器（Chrome）进行演示。

在网页任意地方点击鼠标右键，然后点击“显示网页源代码”。（Windows系统的电脑还可以使用快捷键ctrl+u来查看网页源代码），你会看到，浏览器弹出了一个新的标签页：
在这里插入图片描述
如图显示的就是HTML源代码。

这样查看的好处是，整个网页的源代码都完整地呈现在你面前。坏处是，在大部分情况下，它都会经过压缩，导致结构不够清晰，你不太容易懂每行代码的含义。而且，源代码和网页分开在两个页面展示。

所以更多时候，我们会用这样一种方法：
在网页的空白处点击右键，然后选择“检查”（快捷方式是ctrl+shift+i）。

这个即是 开发者工具栏：
在这里插入图片描述
上图中标亮的部分就是网页的HTML代码。

将鼠标放在HTML源代码上，你会发现，左边网页上有一些内容会被标亮。这其实就是这行代码所描述的网页内容，它们一左一右，相互对应。

HTML的层级

通过开发者工具栏，可以看出HTML会有鲜明的层级结构，以及互相对应的关系。

HTML的组成

标签和元素

最简单的HTML文档：

<html>
	<head>
		<meta charset="utf-8"> 
	</head>
    <body>
        <h1>我是一级标题</h1>
        <h2>我是二级标题</h2>
        <h3>我是三级标题</h3>
        <p>我是一个段落啦。一级标题、二级标题和我，我们三个一起组成了body。
         </p>
    </body>
</html>