爬虫
youhebuke225
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫之爬虫目录
urllib基本使用 点击请求对象定制 点击请求方法get请求 点击post请求 点击原创 2022-04-07 00:02:39 · 3752 阅读 · 5 评论
-
爬虫之xpath插件的使用
安装在谷歌浏览器中点击,,打开更多工具,打开扩展程序下载xpath插件将下载的插件(crx结尾的文件),直接拖拽到扩展程序的窗口中如果提示文件失效,那么可以修改crx为zip,再次进行拖拽关闭浏览器,并再次打开按住快捷家ctrl + shift + x,出现小黑框,就表示安装成功...原创 2022-04-19 20:00:00 · 946 阅读 · 0 评论 -
爬虫之handler的使用
我们使用handler也可以访问url使用步骤得到handler对象得到opener对象调用open方法,open方法中传定制的请求对象使用使用handler对象拿到百度首页的源码import urllib.requesturl = 'http://www.baidu.com'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, l.原创 2022-04-09 15:53:21 · 428 阅读 · 0 评论 -
爬虫之cookie处理
一般我们请求的时候,请求头的信息不够就会导致访问不成功在请求的时候有两个比较重要的信息cookie、referer两个重要的信息cookie携带着你的登录信息,如果我们登录之后有cookie,那么在请求的时候应该在请求头上携带cookie的信息referer一般用来判断当前路径是不是由上一个路径进来的,一般做图片防盗链,他所表示的是上一个页面例子我们写一个微博的cookie登录import urllib.requesturl = 'https://weibo.cn/645149.原创 2022-04-08 13:37:46 · 3808 阅读 · 1 评论 -
爬虫之异常处理
当我们进行爬取数据的时候,有可能会遇到服务器错误,这个时候我们一般都会进行错误的抓取try: # 爬虫代码except urllib.error.URLError: # 报错原创 2022-04-07 13:41:26 · 1009 阅读 · 0 评论 -
爬虫之urllib的post请求参数处理
文章目录参数处理步骤例子参数处理步骤post请求的参数我们不会拼接到url的后面,所以参数一般都会放到请求对象定制的参数中先进行编码,一般要编码成utf-8data = urllib.parse.urlencode(data).encode('utf-8')定制请求对象request = urllib.request.Request(url=url,data=data,headers=headers)发送请求response = urllib.request.urlopen(原创 2022-04-06 14:01:52 · 959 阅读 · 0 评论 -
爬虫之urllib的get请求参数处理
url的组成拿百度来说,我们在百度搜索python的时候他的url组成往往是这样的https://www.baidu.com/s?tn=88093251_47_hao_pg&ie=utf-8&wd=python协议最前面的表示协议,就是图片中的1除了http协议外,我们常见的协议还有协议端口号http80https443mysql3306oracle1521redis6379mongodb27017等主原创 2022-04-06 13:42:19 · 1366 阅读 · 0 评论 -
爬虫之urllib请求对象的定制
浏览器进行请求的时候,往往会携带一些信息,比如UA,那么我们在进行请求的时候也想携带一些信息怎么办,这个时候就需要对于请求对象进行定制了,我们一般用Request方法进行定制,官网import urllib.requesturl = 'https://www.baidu.com'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Geck.原创 2022-04-06 13:04:29 · 624 阅读 · 0 评论 -
爬虫之urllib库的使用
UAUser Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统 及版本、CPU 类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等常用APIurllib.request.urlopen()模拟浏览器向服务器发送请求,返回数据的读取如下read()字节形式读取二进制扩展:read(5)返回前几个字节readline() 读取一行readlines()一行一行读取 直至结束getcode() 获取状态码get原创 2022-04-06 12:49:59 · 1285 阅读 · 0 评论
分享