爬虫
youhebuke225
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫之爬虫目录
urllib 基本使用 点击 请求对象定制 点击 请求方法 get请求 点击 post请求 点击原创 2022-04-07 00:02:39 · 3752 阅读 · 5 评论
-
爬虫之xpath插件的使用
安装 在谷歌浏览器中点击,,打开更多工具,打开扩展程序 下载xpath插件 将下载的插件(crx结尾的文件),直接拖拽到扩展程序的窗口中 如果提示文件失效,那么可以修改crx为zip,再次进行拖拽 关闭浏览器,并再次打开 按住快捷家ctrl + shift + x,出现小黑框,就表示安装成功 ...原创 2022-04-19 20:00:00 · 946 阅读 · 0 评论 -
爬虫之handler的使用
我们使用handler也可以访问url 使用步骤 得到handler对象 得到opener对象 调用open方法,open方法中传定制的请求对象 使用 使用handler对象拿到百度首页的源码 import urllib.request url = 'http://www.baidu.com' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, l.原创 2022-04-09 15:53:21 · 428 阅读 · 0 评论 -
爬虫之cookie处理
一般我们请求的时候,请求头的信息不够就会导致访问不成功 在请求的时候有两个比较重要的信息cookie、referer 两个重要的信息 cookie携带着你的登录信息,如果我们登录之后有cookie,那么在请求的时候应该在请求头上携带cookie的信息 referer一般用来判断当前路径是不是由上一个路径进来的,一般做图片防盗链,他所表示的是上一个页面 例子 我们写一个微博的cookie登录 import urllib.request url = 'https://weibo.cn/645149.原创 2022-04-08 13:37:46 · 3808 阅读 · 1 评论 -
爬虫之异常处理
当我们进行爬取数据的时候,有可能会遇到服务器错误,这个时候我们一般都会进行错误的抓取 try: # 爬虫代码 except urllib.error.URLError: # 报错原创 2022-04-07 13:41:26 · 1009 阅读 · 0 评论 -
爬虫之urllib的post请求参数处理
文章目录参数处理步骤例子 参数处理步骤 post请求的参数我们不会拼接到url的后面,所以参数一般都会放到请求对象定制的参数中 先进行编码,一般要编码成utf-8 data = urllib.parse.urlencode(data).encode('utf-8') 定制请求对象 request = urllib.request.Request(url=url,data=data,headers=headers) 发送请求 response = urllib.request.urlopen(原创 2022-04-06 14:01:52 · 959 阅读 · 0 评论 -
爬虫之urllib的get请求参数处理
url的组成 拿百度来说,我们在百度搜索python的时候他的url组成往往是这样的 https://www.baidu.com/s?tn=88093251_47_hao_pg&ie=utf-8&wd=python 协议 最前面的表示协议,就是图片中的1 除了http协议外,我们常见的协议还有 协议 端口号 http 80 https 443 mysql 3306 oracle 1521 redis 6379 mongodb 27017 等 主原创 2022-04-06 13:42:19 · 1366 阅读 · 0 评论 -
爬虫之urllib请求对象的定制
浏览器进行请求的时候,往往会携带一些信息,比如UA,那么我们在进行请求的时候也想携带一些信息怎么办,这个时候就需要对于请求对象进行定制了,我们一般用Request方法进行定制,官网 import urllib.request url = 'https://www.baidu.com' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Geck.原创 2022-04-06 13:04:29 · 624 阅读 · 0 评论 -
爬虫之urllib库的使用
UA User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统 及版本、CPU 类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等 常用API urllib.request.urlopen()模拟浏览器向服务器发送请求,返回数据的读取如下 read()字节形式读取二进制 扩展:read(5)返回前几个字节 readline() 读取一行 readlines()一行一行读取 直至结束 getcode() 获取状态码 get原创 2022-04-06 12:49:59 · 1285 阅读 · 0 评论
分享