1.HTML是个什么东西?
Hyper Text Markup Language(HTML)超文本标记语言,是用来描述网页的一种语言。
那么标记语言又是什么呢?标记语言就是把文本和文本以外的相关信息(例如大小,高度,颜色,位置等)组合在一起的语言
功能:用于网页的编写和修改。
我们学习html的阶段:看懂、修改、编写。
学习爬虫要掌握的html:看懂简单的html代码并学会修改、提取信息。
2. HTML的组成
<!DOCTYPE html>->全局声明,告诉浏览器处理的文件是html文件
<html>---------->html文件开始
<head>------>文档头开始
***网页头的具体内容***
</head>----->文档头结束
<body>------>文档体(开始)
***网页体的具体内容***
</body>----->文档体(结束)
</html>--------->html文件结束
HTML文档主要由元素组成,分别有:
!DOCTYPE html是一个全局声明,目的是告诉浏览器,你现在处理的这个文档是HTML文档。
html元素(html /html)。
head头元素(head /head)。
body主体元素(body /body)。
3. HTML的层级结构
头部元素( head —— /head)内,一般会被用来设置网页的编码,添加网页标签的小logo,小标题,外部文件引用
HTML文档的主体元素(《body》《/body》)负责定义网页窗口内的所有内容。(significance should be attached here.)
4. 标签
首先,标签是个什么东西呢?
凡是用尖括号包裹起来的都算是标签,顾名思义,标签就是用于标记文本信息的,但是按照形式,它们有:
4.1闭合标签
闭合标签基本上都是成对出现,有开始也有结束。
<html>
</html>
<div>
</div>
<form>
</form>
4.2空标签
同样,空标签就是没有成对出现,孤苦伶仃的标签。
<imag /> 图片标签
<link /> 链接标签
<input /> input标签。