最近博主迷上了Python,准备学习基本语法后学习Python爬虫。
关于爬虫,博主的一个大概印象是用Python代码重复做http请求,发送请求的时候要把请求端伪装成一个浏览器,获得想要的数据并保存在本地。
下面收集一些相关的知识点。
1.URI(统一资源标识符) URL(统一资源标识符)
基本格式是:协议+域名(或IP地址+端口号)+请求资源的路径
例如:
http://www.baidu.com/index.html
或
http://180.101.49.11:443/ndex.html
https://180.101.49.11:443:80/index.html
2.http请求和http响应
如果请求的是网页,返回的是HTML代码,浏览器执行,我们看到的是浏览器执行后的网页。
如果请求的是图片,返回的是图片的二进制数据。
3.index.html或index.htm是一个网站的首页。
index在中文中是索引的意思,在首页上可以进入各个网页,所以index.html是首页。
4.CSS(层叠样式表)
在一个网页中,HTML、CSS、JavaScript这三者是不可或缺的。
在HTML中,重要的说明性数据都写在<head></head>里,CSS也写在这里,格式是:
<head>
<style>
选择器1
{
属性:选择的样式属性
}
选择器2
{
属性:选择的样式属性
}
选择器3
{
属性:选择的样式属性
}
......
</style>
</head>
5.JavaScript
在HTML中,javacript一般写在body标签快结束的地方。
这个之后再说。
看奥运去撩,再见!