这里是标签简介(html的框架结构)
就像Java中 public static void main(String args[]){}
等默认的这种结构,了解即可,不必每次重复写
标签的作用:标识出网页中不同的内容
每个内容都有对应的标签
开始标签 结束标签
<标签名> 需要修饰的文本</标签名>
为了分辨开始和结束,结束的标签名是</标签名>
开始和结束之间放的是修饰的内容
-----------------------------------------------------------------------------------------------------------------------------------------------------------
比如一篇文章(简单修饰的标签)
需要有题目,题目需要醒目一点,字号需要比较大点
<h1> 一级标题 </h1>(字号最大)
<h2>二级标题 <h2/>(字号较小)
字号一共有 h1- h6
文章内容需要分段,换行,不能一下子一段写一行
表明是段落 <p> </p> (一行一换)
文章中词组的突出,比如该词是重点,需要注意
<font> </font>
属性:是一个名值对
属性用来设置标签中的内容如何显示
<font color = "red" size = "3">第三个</font>
第三个则是红色
color只是其中的一个属性名
属性名不能瞎写,规定的,应该根据文档中的规定编写
有些属性有属性值,有些没有
如果有属性值,属性值应该使用双引号引起来 or 单引号也行
-----------------------------------------------------------------------------------------------------------------------------------------------------------
基本语法及结构
<html> </html>根标签 网页中有且只有一个标签
所以内容都必须写到根标签中
html的子标签
子标签
<head> </head>
<body> <body>
一般表示为
<html>
<head> head中的内容在给浏览器or搜索引擎看的,便于解析网页,不会出现在网页上给用户看
<title></title> //是html的子标签 是html标签的后代 是网页的名字
</head>
<body></body>是网页中的主体 展示给用户看
</html>
自结束标签
<img> <input>
<im /> <input / >
标签一般成对存在,但是这里是特殊情况
html有4和5的版本,还有其他标签语言,我们使用html5写,但是浏览器不一定知道
不同的语言和语言版本版本,但是浏览器不一定知道
使用文档说明(doctype) 用来告诉浏览器当前网页的版本
<!doctype html> 告诉浏览器网页是用html5写的
html5的声明,在根标签外面
字符编码
图片 ,MP3 等都会转换为二进制
所有的数据都是以二进制的形式存储
比如存储文字需要转换为二进制编码,
读取的时候,计算机会将编码转换为字符,供我们阅读
编码:
将字符转换为二进制的过程为编码
解码
将二进制转换为字符的过程为解码
字符集:
编码和解码需要遵守一定的规则
比如发电报有密码本
比如 a对应 1 b对应2
乱码:
编码和解码所采用的字符集不同就会出现乱码的问题
常见的字符集
ASCII (美国英国)7位二进制正好可以使用 26个小写字母26个大写字母
还有各种符号
ISO88591 8位 正好够欧洲使用
GB2312 中国的字符集(优化可能使用)
GBK(k表示扩展) 比gb2312更多
UTF-8 万国码 包含世界上所有语言
最好使用UTF-8(默认使用)
如何体现网页的字符集,避免乱码?
<meta>可以通过meta标签来设置网页的字符集,避免乱码问题
给浏览器看的,所以写在<head> </head>中
<meta charset = "UTF-8">
charset n. 字符集;字元集
现在浏览器有的能自动分辨字符集
-----------------------------------------------------------------------------------------------------------------------------------------------------------
完整表现形式为
<!DOCTYPE html><!--html文档的文档类型声明-->
<html><!--html文档的开始-->
<head><!--主要用来说明html文档的相关属性的或设值-->
<meta charset="UTF-8"><!--指定网页的编码-->
<title></title><!--设定网页的标题-->
</head>
<body><!--html文档的主体区域,对应浏览器的呈现内容-->
</body>
</html><!--html文档的结束-->
-----------------------------------------------------------------------------------------------------------------------------------------------------------
题外话
问题是爬到的是网页的源代码,如何获得网页的具体信息?
head标签帮助浏览器 或者 搜索引擎来解析网页
搜索引擎使用爬虫将网页的信息爬下来,存储到数据库中
搜素关键字的时候,从数据库中搜索出来
将信息写到head中,供其使用
<meta charset = "UTF-8">
meta标签用设置网页的元数据,设置网页的字符集,避乱码的问题
title标签中的内容会显示在浏览器的标题栏,
搜索引擎会主要根据title中的内容判断网页的主要内容,就有了SEO岗位