HTML
HTML是一种标签,而不是一种编程语言。下面归纳了一些常用的标签:
<html>内容</html>
:里面包含的就是HTML的内容,是文档的开始和结束的标志,分别位于网页的最前端和最末端。<head>内容</head>
:文件头标记,用来包含文件的基本信息,比如网页的标题,关键字等,而其中标记内的内容是不会在浏览器中显示的。<title>标题</title>
:HTML文件标题标记,网页的主题。<body>内容</body>
:这个标签里面的内容是网页的主体。<meta>内容</meta>
:页面的元信息,此标记必须放在head里面。
首先打开一个网站,这里以腾讯新闻网:腾讯新闻 为例;右键,选择查看网页源代码,就可以了。对了,安利一波Chrome浏览器。
文档标记
<br>
:强制换行标记。<p>
:换段落标记。<li>
:列表项目标记。<ul>
:无序列表标记。<div>
:分区显示标记。<dl>
:定义型列表。<em>
:表示强调。<a href="链接地址" target="打开方式" name="页面锚点名称"> 链接文字或图片</a>
:超链接。<table 属性1="属性值" 属性2="属性值"...>表格内容</table>
:表格。<img src="路径/文件名.图片格式"width="属性值"height="属性值"border="属性值"alt="属性值">
:图片。
XPath
通过XPath来查询节点,以路径表达式来指定元素。这个在后面要用到的时候会讲。
JSON
JSON形式非常像Python中的字典,某种意义上来说就是字典形式。所以这里也不重复说了。
HTTP状态码
请求网页的时候返回的状态。
1XX——临时响应,收到请求,等待下一步指示
200(2XX)——请求成功
301(3XX)——资源被永久转移到其他URL
404(4XX)——请求资源不存在
500(5XX)——服务器内部错误
HTTP头信息
打开Chrome浏览器,按F12(笔记本电脑按Fn+F12),进入开发者工具,点击network,刷新网页就可以看到很多东西出现,然后随便点击一个,选择Headers,就可以查看头信息了。
这里随便找了一个。其中:
- Accept 是请求报头域,用于指定客户端接受那种类型的信息;
- Accept-Encoding 是用于指定客户端接受信息的编码方式;
- Accept-language 是用于指定一种自然语言;
- Connection 是报头域允许发送用于指定连接的选项;
- Cookie 是由客户端发送,包含在HTTP请求的头部中。注意,只有cookie的domain和path与请求的URL匹配才会发送这个cookie;
- Host 是指定请求资源的Internet主机和端口号;
- Referer 是主要用来让服务器判断来源页面, 即用户是从哪个页面来的,通常被网站用来统计用户来源,是从搜索页面来的,还是从其他网站链接过来;
- User-Agent 包含发出请求的用户信息;
HTTP请求方式
最常用的两种:GET和POST
- GET
从指定的服务器中获取数据。
- POST
提交数据给指定的服务器处理。