Python爬虫学习笔记(一)

最近博主迷上了Python,准备学习基本语法后学习Python爬虫。

关于爬虫,博主的一个大概印象是用Python代码重复做http请求,发送请求的时候要把请求端伪装成一个浏览器,获得想要的数据并保存在本地。

下面收集一些相关的知识点。

1.URI(统一资源标识符) URL(统一资源标识符)

基本格式是:协议+域名(或IP地址+端口号)+请求资源的路径

例如:
http://www.baidu.com/index.html

http://180.101.49.11:443/ndex.html
https://180.101.49.11:443:80/index.html

2.http请求和http响应

如果请求的是网页,返回的是HTML代码,浏览器执行,我们看到的是浏览器执行后的网页。
如果请求的是图片,返回的是图片的二进制数据。

3.index.html或index.htm是一个网站的首页。

index在中文中是索引的意思,在首页上可以进入各个网页,所以index.html是首页。

4.CSS(层叠样式表)

在一个网页中,HTML、CSS、JavaScript这三者是不可或缺的。
在HTML中,重要的说明性数据都写在<head></head>里,CSS也写在这里,格式是:


<head>
<style>
选择器1
{
属性:选择的样式属性
}
选择器2
{
属性:选择的样式属性
}
选择器3
{
属性:选择的样式属性
}
......
</style>
</head>

5.JavaScript

在HTML中,javacript一般写在body标签快结束的地方。
这个之后再说。

看奥运去撩,再见!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值