
爬虫基础
文章平均质量分 74
算力鬼才信
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python【os模块文件读写操作】超详细
案例实操:测试本地是否存在指定的文件夹,如果存在删除文件重新创建一个指定的文件夹,否则直接创建这样一个文件夹 patth = r'E:\Java软件\cesi_fuck' os.getcwd() 释义:表示当前目录,就是当前python文件的运行的目录 if os.path.exists(patth): os.rmdir(patth) os.mkdir(patth)原创 2023-02-14 16:28:39 · 2086 阅读 · 0 评论 -
Python搭建自己[IP代理池]
因为在向互联网发送请求中,网页端会识别客户端是真实用户还是爬虫程序,在今天以互联网为主导的世界中,数据一种资源,谁能得到更多有效的数据,谁就能在今天互联网世界斗争中获得先机,所以网页是不愿意把数据作为开源分享给其他互联网运营公司的,它会创造出许许多多的反制措施来避免自己的数据被其他竞争对手(或利益相关的其他服务商),但又不得不为了创造更高的经济价值,来以非常有限的隧道中让正常真实用户访问它的网页,所以IP作为访问者的唯一标识,自然而然成为互联网公司鉴别真实非爬虫用户的一种手段。原创 2023-02-10 15:55:08 · 6229 阅读 · 2 评论 -
python自动化登录【超级鹰】使用详解
实战:识别古诗文网登录页面中的验证码1.使用超级鹰平台识别验证码的编码流程: 2.将验证码图片进行本地下载3.调用平台提供的示例代码进行图片数据识别超级鹰其实就是opencv中的图像识别,使用者将图片下载下来,传给超级鹰平台识别,它会给你返回一个正确的结果原创 2023-02-04 20:13:58 · 4320 阅读 · 6 评论 -
python【xpath】实战
项目我没有写完,关于对下载地址发起一个get请求,就可以项目完整了,因为要对两个页面,两个url分别发起一次get请求,大家可以用面向对象的方法,把一个页面从获取地址到发起请求创建一个方法,这样看起来代码比价高级。我们可以尝试点击一下,哎怎么是这张页面,我们上一个发起按钮下载请求地址的模块就在这张页面,所以由此可知,只要我们得到了上一个页面,在上一个界面找到a标签中的请求地址,并对它发起一个get请求就可以得到这张页面。原创 2023-02-02 14:57:51 · 481 阅读 · 0 评论 -
请求域名requests.(url = 地址)报错
发现了没有,url = 'url' ,看起来没啥问题,其实是不对的,我在这里研究了好久,不知道哪里出错,还以为,请求的地址太多,因为我提取的是一批。requests.exceptions.MissingSchema:URL“response”无效:未提供方案。response 无效,架构不对,我们回去看看repsonse。我想是用 for循环遍历是一个一个往出拿,应该没啥问题,所以问题在这里?这个请求地址: url = url 不需要加上单引号。原创 2023-02-02 09:54:32 · 1140 阅读 · 2 评论 -
Python【xpath】实战下
二手房页面数据获取xpath 数据解析,解析成html页面形式,因为解析的是网页数据所以要用etree.HTML,如果解析的是本地数据etree.parse原创 2023-01-30 22:36:59 · 765 阅读 · 0 评论 -
Python【xpath】实战案例【中】
requests.exceptions.SSLError: HTTPSConnectionPool(host=‘httpbin.org’, port=443): Max retries exceeded with url: /get (Caused by SSLError(SSLError(1, ‘[SSL: WRONG_VERSION_NUMBER] wrong version number (_ssl.c:1123)’)))原因问题:网站运营者近期未对网站安全认证向浏览器官方交付认证,证书认证失效解原创 2023-01-28 13:51:13 · 1133 阅读 · 0 评论 -
Python【xpath】基础上
索引定位: //div[@class='sons']/p[3] 首先直接定位到所有div标签,然后找到属性值为 class = 'sons' 这一标签,然后找到本标签下的标签,假如这个div标签下有很多 p 标签,取第几个标签,p[3]表示取第三个p标签。(为什么要找到创建python运行文件因为你创建运行python代码的文件,你首先得创建一个包,然后才能创建文件,创建xx.html,和创建xx.py文件的流程是一样的,只是你选择的文件格式不一样,)/ 也表示的是一个层级。原创 2023-01-19 22:57:43 · 1040 阅读 · 0 评论 -
Python【如何绕过防盗链策略】referer
# 反爬机制:防盗链referer# 比如你从csdn的首页点进我的这篇文章,防盗链机制运营逻辑是,你点进我的这篇前是从哪里进来的,判断请求来源哪里# 如何躲避防盗链检测,在请求headers中添加 “Referer“:url原创 2023-01-18 22:30:20 · 1662 阅读 · 0 评论 -
Python【r e】模块正则表达式[中]实战
正则表达式相关函数和符号用法:#正则表达式""".匹配任意某个字符[.]与转义字符的作用一致,表示匹配.,配合 + ,[.]+,即匹配一次或则多次.text = . 或则 text = ...2.从头匹配或者从左往右匹配re.match()"""import re#会报错的 AttributeError:“NoneType”对象没有属性“group”#正确用法,match函数的作用,从匹配资料开头查看,有没有被match匹配到的内容,如果开头有那就提取出来,否则报错。原创 2023-01-17 12:38:17 · 825 阅读 · 0 评论 -
Python【bs4模块】讲解
2.将互联网上获取的页面源码加载到该对象中 page_text = response.text soup = BeatifulSoup(page_text) - 提供数据解析的方法和属性 - 1.soup.tagNamae 返回的是HTML中第一次出现的tagName标签。 tagName 是标签名可以是(div/a/li/...) - 2.find(''): find()函数第一种用法等同于soup.原创 2023-01-14 14:19:04 · 865 阅读 · 2 评论