- 博客(16)
- 问答 (3)
- 收藏
- 关注
原创 html标签
学习目标:初步了解html标签,再用正则寻找标签。 上次我们了解了html,但是我们要利用html,必须对html标签足够的认识。 双标签一般以以下格式出现: <标签名 参数名="参数">文本</标签名> 单标签则是这样: <标签名 参数名="参数"> 因此,我们可以得出结论:标签都是有一定格式和规律,所以,我们就可以用正则表达式寻找html标签。 我们准备好示例html代码: <p>text</p>...
2022-08-10 13:17:48
183
原创 认识html
学习目标:认识html,并了解其用处。 在之前的文章中,我们讲过html,今天我们来正式认识它。 一、html有什么用 作为构建网页的语言,html中有很多对爬虫有用的信息,所以我们需要了解它。 二、知道html是什么 Html,原名超文本标记语言,是适用于构件液面的一种web前端语言,我们看到的页面都是由html的代码写成的,而我们爬虫得到的网页源码也是html。 三、我们怎么利用html 这就要从html的结构说起:html主要由两部分组成:标签和文本,标.........
2022-08-07 15:35:58
243
3
原创 了解headers
学习目标:了解headers中的user-agent、cookies和referer。 上次我们了解了url,这次来了解headers中最重要的user-agent、cookies和referer。 一、user-agent 这是最简单的一个,我们之前讲过,服务器为了确认发出请求的是什么,一般会检查user-agent,所以它十分重要。 二、cookies 这个我们之前也讲过,cookies是用于传输参数的,cookie不同,结果就不同。 三、referer ...
2022-07-30 14:16:19
362
5
原创 url中的秘密
学习目标:了解url的规律,并学会运用。 一、开头 开头一般表示网页的类型,如:http://表示没有ssl的网页而https://表示有;file://表示一个html文件等。 二、域名和端口 url开头之后一般以xxx.xxxx.xxx的形式出现,以.隔开两段,段数不一,一般后两段为网络域名,如是三段及以上,前几段表示某个端口。还有一种是以xxx.xxx.xxx.xxx:xxxx出现的,在:前面是服务ip之后则是端口号。 三、路径 其实网站服务器的虚拟环境也...........
2022-07-21 10:40:10
267
原创 让你便利的信息——cookie
学习目标:认识并传入cookie。 学习json以后,我们将学习另一种信息——cookie。 如果你将请求来多代码写入一个html(具体后面会讲)格式的文件中,你打开后的未登录的页面;而你用浏览器来打开,一般是登录后的。其实是因为每次完成登录后,服务器会发给你一个cookie,其中包含了你的帐号、密码,当你再次打开时会自动将cookie发出去,就得到了登录后的页面。 我们来找一下cookie,先打开开发者选项: 我们找到headers,这边有很多的参数,有的(大...
2022-07-20 18:30:00
185
原创 获取、使用json
学习目标:获取json格式的数据,并学会使用它。 上次我们认识了json,并提到了json出现的三种格式,今天我们来获取json数据。 一、单独文件 这种文件其实很简单,只要用content或text来获取。但是要让它转化成Python的格式,就要用到json模块。 import json j=json.loads(r) 第1行,我们打过了json模块;第2行的loads是为了将json的数据,转化成Python可以处理的数据。(至于这个r,就是json文件的文本) ...
2022-07-17 19:38:17
987
原创 认识json
学习目标:认识json。 之前我们请求了网页的文本信息,今天我们来认识一种新的类型的数据——json。 我们了解一下json: 这样讲大家可能看不懂,我来补充一下。在网页的源码中,一般有三种代码,分别是html、css、javascript(js)。html用于构建页面,css用于对页面修饰,而javascript则用于运行一些操作。我们知道,在Python中要存储信息,会用到int、float、list、dictionary等来存储;而javascript也一样有很多数据........
2022-07-14 15:08:36
265
原创 请求二进制文本并写入文件
学习目标:学会如何请求二进制的数据,并将它们写入文件。 之前我们解决了headers的问题,可以得到文本的所有内容了,这次我们来请求一种特殊的文本——二进制。 只要懂点电脑的人,对二进制肯定很熟悉,一般的音频视频文件,都是用二进制文本构成的。所以为了请求到这些文件,我们必须请求到它的二进制信息。 首先我们尝试用老办法来解决一下这些二进制的信息。 import requests url="""一个二进制文件的URL""" headers="""请求头此处不展示""" r........
2022-07-06 07:37:15
305
原创 从浏览器中获取headers
学习目标:学会在浏览器开发者选项中提取请求头。 上次我们学会了怎样传入headers,但不知道应该传些什么,这次我们来学会从浏览器中提取它。 我们打开开发者选项的Network: 我们在里面找到request headers,这里面就是很多的头部信息,现在我们暂时用到的应该就是user agent他可以告诉浏览器,你是用什么软件向他发出的请求,把它改掉以后服务器就以为这是一个浏览器。 我们将它复制下来,传入,这样一般就可以得到所有数据,以后我们来讲一下其他的东西分别是什......
2022-07-05 18:19:10
5305
1
原创 认识headers
学习目标:了解并学会传入headers。 上次我们在写代码时遇到了一个问题,就是得到的文本只有一点点。这是因为服务器为了反爬,实施的一种措施。 首先我们要了解一下headers,他就是我们在请求过程当中传入的头部信息,这种浏览器可以分辨你是什么身份。我们首先看一下默认传入的headers。 print(r.headers) 我们就直接在上次的代码下面加上这个,从得到的信息里面你可以看到,requests直接告诉了服务器这是一个爬虫。所以我们要改一下headers。 h...
2022-07-04 18:53:12
2037
原创 获取网页源代码
之前的学习中,我们学会了请求网页,并且学会了如何确定用post还是get。但是我们只能得到一个<Response [200]>,而不可以得到其他信息。今天我们来学习两个简单的方法,使我们可以得到网页的源代码。 一、 Test 我们先来看一个实例: import requests r=requests.get(url="https://www.Python.org").text print(r) 运行它以后,我们可以看到很多的html代码,至于什么是 html,我们......
2022-06-30 10:18:52
3361
原创 解决请求方式的问题
学习目标:解决不知道用get方法还是post方法的问题。 上次我们使用的get和post,但是遇到了一个问题,不知道该用get好还是post好,这次我们来用三种办法解决它。 一、试一试 这是一种最简单的方法,就是首先你用get试一下,如果不行就换post,就这么简单。 二、推测法 这就是你逻辑思维的问题了,我们首先来想一想,如果没有必要的情况下,服务器肯定会用get,而在需要加密或者大数据的时候,会用post。所以按照这样的思维,一般情况下可以找到是用get还是po..........
2022-06-26 10:25:33
232
原创 发送一个请求
学习目标:用get和post分别发送一个请求,获取状态码。 上一次我们认识的get和post,并简单讲了它们的用法,这次我们开始正式使用它们。 首先我们导入requests模块: import requests 接下来我们开始定义一些基本的信息: url="https://www.baidu.com/" 在这里我们只定义了URL(链接地址),写入了一个叫做url的变量里。 接下来开始使用get和post: r1=requests.get(ur......
2022-06-25 13:41:57
200
原创 认识GET和POST
学习目标:认识get和post两个类,并知道GET和POST请求的区别和用途。 上次我们安装并了解了requests,现在我们开始使用它。 首先requests里面有非常重要的两个类,他们分别是get和post,get和post都是用于请求的,但根据不同的需求需要使用不同的方法。 一、 GET和POST的区别 其实get和post分别是两种不同的请求方式,但它们的原理和性质不同,接下来我们来了解一下。 (1).GET请求 我们来打一个比较简...
2022-06-24 18:06:49
599
原创 发送请求——从requests入手
学习目标:学会安装requests,并且简单了解requests。 上一次我们基本了解了爬虫,这次我们开始正式的学习。 首先爬虫请求需要一个叫requests的模块,它主要用于请求数据。 requests因为不是标准库,所以需要额外安装,我们需要用到终端的pip命令,它是专门用来管理模块的。 首先我们打开终端,输入: Python -m pip install --user requests 这个命令可以用来安装requests模块。 现在来介绍r............
2022-06-23 18:01:38
224
原创 爬虫的基本定义与原理
你听说过爬虫吗?从今天开始我们一起学习Python爬虫吧! 一、爬虫的定义 你可能不知道,其实你现在就在爬虫,原来爬虫分为通用爬虫和聚焦爬虫,通用爬虫就是我们平常的上网,而我们Python则是聚焦爬虫。爬虫主要是通过我们的电脑向服务器发送请求,然后服务器返回数据给我们。 二、爬虫的原理 通用爬虫一般是我们电脑在打开网站时,我们的电脑向服务器发送一个请求,然后服务器发送给我们页面代码,在我们的浏览器上运行。我们每次完成一个操作就会重新向服务器发送一个相应的请求。以此类推交换信息........
2022-06-19 09:34:50
577
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅