Python网络爬虫摘文-爬虫开发基础-1.4-HTML

本文介绍了HTML的基础知识,包括HTML的超文本特性、基本结构以及爬虫开发中对HTML的理解。HTML由<head>和<body>两部分组成,<head>包含元信息,如<meta>、<title>,而<body>则承载着网页的实际内容,如<h1>、<p>、<a>等标签。通过分析HTML结构,可以更好地理解和解析网页布局。

·HTML是超文本标记语言,标准通用标记语言下的一个应用。

“超文本”就是指页面内可以包含图片、链接,甚至音乐、程序等元素。超文本标记语言的结构包括“头”部分(Head)和“主体”部分(Body),其中“头”部分提供关于网页的信息,“主体”部分提供网页的具体内容。

·爬虫开发对HTML的要求是能看懂HTML各个标签的含义,了解标签的属性作用以及整个HTML布局设计。下面来看一个简单的HTML文档的结构:

`<! DOCTYPE html > #声明为HTML5文档

< html > #元素是HTML页面的根元素
< head > #元素包含了文档的元(meta)数据
< meta charset = “utf-8”> #元素可提供有关页面的元信息(meta-information),主要是描述和关键词
< title>Python</ title> #元素描述了文档的标题
< /head>
< body> #元素包含了可见的页面内容
< h1> #我的第一个标题< /h1> #定义一个标题
< p > #我的第一个段落。< /p > #元素定义一个段落
< /body >
< /html>`

·
·
·一个完整的网页必定以 < html>< /html>为开头或结尾,整个HTML可分为两部分:

  1. < head >< /head>,主要是对网页的描述、图片和JavaScript的引用。< head>元素包含所有的头部标签元素。在< head>元素中可以插入脚本(scripts)、样式文件(CSS)以及各种meta信息。该区域可添加的元素标签有< title>、< style>、< meta>、< link>、< scrpt>、< noscript>和< base>.

  2. < body >< /body >是网页信息的主要载体。该标签下还可以包含很多类别的标签,不同的标签有着不同的作用,标签以<>开头,以</>结尾,<>与</>之间的内容是标签的值和属性,每个标签之间可以是相互独立的,也可以是嵌套、层层递进得到关系

·
·
根据这两个组成部分就能很容易的分析整个网页的布局。其中,< body>< /body>是整个HTML的重点部分,通过示例讲述如何分析< body> < /body>:

< body>
< h1>我的第一个标题< /h1>
< div>
< p>Python < /p >
< /div>
< h2>
< p>
< a>Python< /a>
< /p>
< /h2>
< /body>

上述例子分析如下:

  1. < h1>和< div>是两个不相关的标签,两个标签是相互独立的
  2. < div>和< p>是嵌套关系,< p>的上一级是< div>
  3. < h1>和< p>这两个标签是毫无关系的
  4. < h2>标签包含一个< p>标签,< p>标签在包含一个< a>标签,一个标签可以包含多个标签在其中。

·
·
·
除了上述示例的标签外,大部分标签都是可以在< body>< /body>中添加的,常用的标签如表所示:

HTML标签中文释义
Img图片
A
Strong加重(文本)
Em强调(文本)
I斜体字
B粗体(文本)
Br换行
Div分隔
Span范围
OI排序列表
UI不排序列表
Li列表项目
DI定义列表
h1~h6标题1到标题6
P段落
Tr表格中的一行
Th表格中的表头
Td表格中的一个单元格

·
·
·
·

·文章摘选自《实战Python网络爬虫》,仅用于个人学习笔记。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值