·HTML是超文本标记语言,标准通用标记语言下的一个应用。
“超文本”就是指页面内可以包含图片、链接,甚至音乐、程序等元素。超文本标记语言的结构包括“头”部分(Head)和“主体”部分(Body),其中“头”部分提供关于网页的信息,“主体”部分提供网页的具体内容。
·爬虫开发对HTML的要求是能看懂HTML各个标签的含义,了解标签的属性作用以及整个HTML布局设计。下面来看一个简单的HTML文档的结构:
`<! DOCTYPE html > #声明为HTML5文档
< html > #元素是HTML页面的根元素
< head > #元素包含了文档的元(meta)数据
< meta charset = “utf-8”> #元素可提供有关页面的元信息(meta-information),主要是描述和关键词
< title>Python</ title> #元素描述了文档的标题
< /head>
< body> #元素包含了可见的页面内容
< h1> #我的第一个标题< /h1> #定义一个标题
< p > #我的第一个段落。< /p > #元素定义一个段落
< /body >
< /html>`
·
·
·一个完整的网页必定以 < html>< /html>为开头或结尾,整个HTML可分为两部分:
< head >< /head>,主要是对网页的描述、图片和JavaScript的引用。< head>元素包含所有的头部标签元素。在< head>元素中可以插入脚本(scripts)、样式文件(CSS)以及各种meta信息。该区域可添加的元素标签有< title>、< style>、< meta>、< link>、< scrpt>、< noscript>和< base>.
< body >< /body >是网页信息的主要载体。该标签下还可以包含很多类别的标签,不同的标签有着不同的作用,标签以<>开头,以</>结尾,<>与</>之间的内容是标签的值和属性,每个标签之间可以是相互独立的,也可以是嵌套、层层递进得到关系
·
·
根据这两个组成部分就能很容易的分析整个网页的布局。其中,< body>< /body>是整个HTML的重点部分,通过示例讲述如何分析< body> < /body>:
< body>
< h1>我的第一个标题< /h1>
< div>
< p>Python < /p >
< /div>
< h2>
< p>
< a>Python< /a>
< /p>
< /h2>
< /body>
上述例子分析如下:
- < h1>和< div>是两个不相关的标签,两个标签是相互独立的
- < div>和< p>是嵌套关系,< p>的上一级是< div>
- < h1>和< p>这两个标签是毫无关系的
- < h2>标签包含一个< p>标签,< p>标签在包含一个< a>标签,一个标签可以包含多个标签在其中。
·
·
·
除了上述示例的标签外,大部分标签都是可以在< body>< /body>中添加的,常用的标签如表所示:
| HTML标签 | 中文释义 |
|---|---|
| Img | 图片 |
| A | 锚 |
| Strong | 加重(文本) |
| Em | 强调(文本) |
| I | 斜体字 |
| B | 粗体(文本) |
| Br | 换行 |
| Div | 分隔 |
| Span | 范围 |
| OI | 排序列表 |
| UI | 不排序列表 |
| Li | 列表项目 |
| DI | 定义列表 |
| h1~h6 | 标题1到标题6 |
| P | 段落 |
| Tr | 表格中的一行 |
| Th | 表格中的表头 |
| Td | 表格中的一个单元格 |
·
·
·
·
·文章摘选自《实战Python网络爬虫》,仅用于个人学习笔记。
本文介绍了HTML的基础知识,包括HTML的超文本特性、基本结构以及爬虫开发中对HTML的理解。HTML由<head>和<body>两部分组成,<head>包含元信息,如<meta>、<title>,而<body>则承载着网页的实际内容,如<h1>、<p>、<a>等标签。通过分析HTML结构,可以更好地理解和解析网页布局。
504

被折叠的 条评论
为什么被折叠?



