Python网络爬虫摘文-爬虫开发基础-1.4-HTML

最新推荐文章于 2026-01-05 17:06:32 发布

转载最新推荐文章于 2026-01-05 17:06:32 发布 · 180 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://baike.baidu.com/item/%E5%AE%9E%E6%88%98Python%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/23607633?fr=aladdin

文章标签：

#python

Python网络爬虫专栏收录该内容

10 篇文章

订阅专栏

本文介绍了HTML的基础知识，包括HTML的超文本特性、基本结构以及爬虫开发中对HTML的理解。HTML由<head>和<body>两部分组成，<head>包含元信息，如<meta>、<title>，而<body>则承载着网页的实际内容，如<h1>、<p>、<a>等标签。通过分析HTML结构，可以更好地理解和解析网页布局。

·HTML是超文本标记语言，标准通用标记语言下的一个应用。

“超文本”就是指页面内可以包含图片、链接，甚至音乐、程序等元素。超文本标记语言的结构包括“头”部分（Head）和“主体”部分（Body），其中“头”部分提供关于网页的信息，“主体”部分提供网页的具体内容。

·爬虫开发对HTML的要求是能看懂HTML各个标签的含义，了解标签的属性作用以及整个HTML布局设计。下面来看一个简单的HTML文档的结构：

`<! DOCTYPE html > #声明为HTML5文档

< html > #元素是HTML页面的根元素
< head > #元素包含了文档的元（meta）数据
< meta charset = “utf-8”> #元素可提供有关页面的元信息（meta-information），主要是描述和关键词
< title>Python</ title> #元素描述了文档的标题
< /head>
< body> #元素包含了可见的页面内容
< h1> #我的第一个标题< /h1> #定义一个标题
< p > #我的第一个段落。< /p > #元素定义一个段落
< /body >
< /html>`

·
·
·一个完整的网页必定以 < html>< /html>为开头或结尾，整个HTML可分为两部分：

< head >< /head>，主要是对网页的描述、图片和JavaScript的引用。< head>元素包含所有的头部标签元素。在< head>元素中可以插入脚本(scripts)、样式文件(CSS)以及各种meta信息。该区域可添加的元素标签有< title>、< style>、< meta>、< link>、< scrpt>、< noscript>和< base>.

< body >< /body >是网页信息的主要载体。该标签下还可以包含很多类别的标签，不同的标签有着不同的作用，标签以<>开头，以</>结尾，<>与</>之间的内容是标签的值和属性，每个标签之间可以是相互独立的，也可以是嵌套、层层递进得到关系

·
·
根据这两个组成部分就能很容易的分析整个网页的布局。其中，< body>< /body>是整个HTML的重点部分，通过示例讲述如何分析< body> < /body>:

< body>
< h1>我的第一个标题< /h1>
< div>
< p>Python < /p >
< /div>
< h2>
< p>
< a>Python< /a>
< /p>
< /h2>
< /body>

上述例子分析如下：

< h1>和< div>是两个不相关的标签，两个标签是相互独立的
< div>和< p>是嵌套关系，< p>的上一级是< div>
< h1>和< p>这两个标签是毫无关系的
< h2>标签包含一个< p>标签，< p>标签在包含一个< a>标签，一个标签可以包含多个标签在其中。

·
·
·
除了上述示例的标签外，大部分标签都是可以在< body>< /body>中添加的，常用的标签如表所示：

HTML标签	中文释义
Img	图片
A	锚
Strong	加重（文本）
Em	强调（文本）
I	斜体字
B	粗体（文本）
Br	换行
Div	分隔
Span	范围
OI	排序列表
UI	不排序列表
Li	列表项目
DI	定义列表
h1~h6	标题1到标题6
P	段落
Tr	表格中的一行
Th	表格中的表头
Td	表格中的一个单元格