爬虫学习——初识HTML

这篇博客介绍了HTML的基本概念,包括它作为超文本标记语言的用途,以及其组成部分和层级结构。学习HTML的重点在于理解元素,尤其是闭合标签和空标签的使用。对于爬虫学习者来说,能读懂和修改HTML是基础技能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.HTML是个什么东西?

Hyper Text Markup Language(HTML)超文本标记语言,是用来描述网页的一种语言
那么标记语言又是什么呢?标记语言就是把文本和文本以外的相关信息(例如大小,高度,颜色,位置等)组合在一起的语言

功能:用于网页的编写和修改。
我们学习html的阶段:看懂、修改、编写。
学习爬虫要掌握的html:看懂简单的html代码并学会修改、提取信息。

2. HTML的组成

<!DOCTYPE html>->全局声明,告诉浏览器处理的文件是html文件
<html>---------->html文件开始
	<head>------>文档头开始
		***网页头的具体内容***
	</head>----->文档头结束
	<body>------>文档体(开始)
		***网页体的具体内容***
	</body>----->文档体(结束)
</html>--------->html文件结束

HTML文档主要由元素组成,分别有:
!DOCTYPE html是一个全局声明,目的是告诉浏览器,你现在处理的这个文档是HTML文档。
html元素(html /html)。
head头元素(head /head)。
body主体元素(body /body)。

3. HTML的层级结构

头部元素( head —— /head)内,一般会被用来设置网页的编码,添加网页标签的小logo,小标题,外部文件引用
HTML文档的主体元素(《body》《/body》)负责定义网页窗口内的所有内容。(significance should be attached here.)

4. 标签

首先,标签是个什么东西呢?
凡是用尖括号包裹起来的都算是标签,顾名思义,标签就是用于标记文本信息的,但是按照形式,它们有:

4.1闭合标签

闭合标签基本上都是成对出现,有开始也有结束。

<html>
</html>
<div>
</div>
<form>
</form>

4.2空标签

同样,空标签就是没有成对出现,孤苦伶仃的标签。

<imag />  图片标签
<link />  链接标签
<input /> input标签。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值