
爬虫
文章平均质量分 70
LeeGene..
QQ群:855262907,加入群可以群里互相交流。
展开
-
requests,golang版http请求,支持Ja3指纹修改
golang版requests,使用方式跟python版requests极其相似,欢迎各位大佬使用!requests支持以下新特性:1. 支持http2,默认以http2进行连接,连接失败后会进行退化而进行http1.1连接2. 支持JA3指纹修改3. 支持http2+JA3指纹4. 支持在使用代理的基础上修改JA3指纹原创 2022-03-30 18:19:17 · 4720 阅读 · 6 评论 -
XPath Tools - XPath浏览器插件(自己纯手工制作的)
前言今天要介绍一款自己开发的浏览器插件(XPath tools),此款插件主要是用来帮助大家使用XPath的时候能够快速的找到对应的内容,此款插件是不支持使用快捷键来选中某内容来快速获取XPath路径的,因为这样我觉得还不如直接打开控制台从里面直接复制来的好。内容和效果跟XPath helper一样,因为也是模拟他的页面嘛,还望大家轻喷啊!效果图获取元素时:获取内容时:提示错误时:唤醒插件快捷键Windows是:Ctrl+Shift+AMac OS是:Option+Shift+A安原创 2021-01-25 20:40:25 · 1079 阅读 · 1 评论 -
同花顺财经列表数据获取(Cookie参数中的v值解决)
前言没啥可说的,直接上结果,你们要是有啥不会就看我的其他的文章,里面有基础的断点操作等等。QQ群聊855262907结果获取我们发现这个网站的结果不需要Cookie值也是可以正常获取的。当然这不是我们要的结果,因为我们需要对v参数进行解决,主要是练习自己的JS逆向水平啊!v值解决通过下图可以看出这个JS文件就是加密生成v参数的了,里面的具体解决步骤就不放出来了,平台不允许我放出来,具体可以加群进行交流。v值生成图片里面有很多环境检测的东西,比如document,window,navi原创 2021-01-23 22:54:42 · 3521 阅读 · 4 评论 -
一篇关于反爬虫和反反爬虫的文章(内含Python爬虫和JS逆向以及反反爬虫练习平台)
前言博主已经好几个月没有更新文章了,原因就是最近在搞一个反反爬虫练习平台给予大家免费使用。属实不会编写文案,所以粗制滥造的话语请大家不要建议,主要还是介绍《平头哥反反爬虫练习平台》,平台网址在最下方。爬虫根据百度百科的解释:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。危害:因为爬虫的出生,这对于最初期的大部分网站有非常大的危害。因原创 2020-12-29 15:59:19 · 2067 阅读 · 6 评论 -
Python3登陆土巴兔装修网,解决RSA加密
前言在这里我就不再一一介绍每个步骤的具体操作了,因为在爬取老版今日头条数据的时候都已经讲的非常清楚了,所以在这里我只会在重点上讲述这个是这么实现的,如果想要看具体步骤请先去看我今日头条的文章内容,里面有非常详细的介绍以及是怎么找到加密js代码和api接口。Python3爬取今日头条文章视频数据,完美解决as、cp、_signature的加密方法QQ群聊855262907分析土巴兔装修网先进行一次登陆,然后在开发者工具里面查找一下有参数的链接,搜索关键词username或者password看看有没原创 2020-11-03 14:32:22 · 878 阅读 · 2 评论 -
Python3爬取百度文库数据
前言在这里我就不再一一介绍每个步骤的具体操作了,因为在爬取老版今日头条数据的时候都已经讲的非常清楚了,所以在这里我只会在重点上讲述这个是这么实现的,如果想要看具体步骤请先去看我今日头条的文章内容,里面有非常详细的介绍以及是怎么找到加密js代码和api接口。Python3爬取今日头条文章视频数据,完美解决as、cp、_signature的加密方法QQ群聊855262907分析百度文库经过一个一个的排查,发现数据就在这里,你直接搜索也是可以的,那样更快。我们直接搜索参数authorizatio原创 2020-11-02 11:57:42 · 1846 阅读 · 1 评论 -
Python3爬取58同城租房数据,完美解决字体加密
前言在这里我就不再一一介绍每个步骤的具体操作了,因为在爬取老版今日头条数据的时候都已经讲的非常清楚了,所以在这里我只会在重点上讲述这个是这么实现的,如果想要看具体步骤请先去看我今日头条的文章内容,里面有非常详细的介绍以及是怎么找到加密js代码和api接口。Python3爬取今日头条文章视频数据,完美解决as、cp、_signature的加密方法QQ群聊85526290758同城网站分析58同城的数据爬取非常简单,唯一有点难的就是字体的加密,除此之外其他的数据用xpath即可获取。想爬取不同地方原创 2020-10-30 18:05:16 · 1858 阅读 · 0 评论 -
Python3爬取迅捷语音转文字(包含持久化登陆和分片上传文件)
前言在这里我就不再一一介绍每个步骤的具体操作了,因为在上一次爬取今日头条数据的时候都已经讲的非常清楚了,所以在这里我只会在重点上讲述这个是这么实现的,如果想要看具体步骤请先去看我今日头条的文章内容,里面有非常详细的介绍以及是怎么找到加密js代码和api接口。Python3爬取今日头条文章视频数据,完美解决as、cp、_signature的加密方法分析迅捷语音转文字网站迅捷语音转文字功能只有VIP用户可以使用,非VIP用户不能上传大于2M的音频文件,这里只是说明网站的整个破解学习过程,不是破解此网站的原创 2020-08-23 14:43:43 · 838 阅读 · 0 评论 -
Python3爬取淘宝网商品数据
前言在这里我就不再一一介绍每个步骤的具体操作了,因为在上一次爬取今日头条数据的时候都已经讲的非常清楚了,所以在这里我只会在重点上讲述这个是这么实现的,如果想要看具体步骤请先去看我今日头条的文章内容,里面有非常详细的介绍以及是怎么找到加密js代码和api接口。Python3爬取今日头条文章视频数据,完美解决as、cp、_signature的加密方法分析淘宝网这次选择的是淘宝网热卖而不是淘宝网,二者虽然名字有不同,但是数据还是一样的,区别就在于前者把后者的所有店铺和商品的海量数据按照销售量、好评度、信誉原创 2020-08-20 14:19:33 · 8016 阅读 · 1 评论 -
Python3爬取腾讯新闻(手机端)广告数据
前言在这里我就不再一一介绍每个步骤的具体操作了,因为在爬取老版今日头条数据的时候都已经讲的非常清楚了,所以在这里我只会在重点上讲述这个是这么实现的,如果想要看具体步骤请先去看我今日头条的文章内容,里面有非常详细的介绍以及是怎么找到加密js代码和api接口。Python3爬取今日头条文章视频数据,完美解决as、cp、_signature的加密方法WAP端跟APP端完全没啥区别,所以能用WAP端就用WAP端爬取数据,APP端涉及逆向APP比较复杂,所以推荐爬取WAP端的数据。对比提交数据Form Dat原创 2021-01-23 22:58:15 · 1361 阅读 · 0 评论 -
Python打造自己的爬虫代理池
代理介绍爬虫工程师在爬取网页的过程中多多少少都会碰到各式各样的反爬虫手段,比如封IP、验证码、JS加密、数据加密等,这里最为常见的就是封IP了,当同一个IP访问网站的频率过高时,网站就会认为你是一个机器人而不是真人,这时候就会对此IP进行封禁处理,让你再次访问的时候出现验证码让你来识别,或者会给你一个提醒等,这个时候你的爬虫就爬不出来任何的数据了,此时要想破解封IP只能更换自己本机的IP或者进行代理操作,这就是代理的重要性,代理有免费代理和付费代理,免费代理非常不稳定,往往需要自己去维护。代理池介绍简原创 2020-06-21 00:34:53 · 1373 阅读 · 0 评论 -
Python3爬取京东商品数据,解决赖加载问题
前言在这里我就不再一一介绍每个步骤的具体操作了,因为在上一次爬取今日头条数据的时候都已经讲的非常清楚了,所以在这里我只会在重点上讲述这个是这么实现的,如果想要看具体步骤请先去看我今日头条的文章内容,里面有非常详细的介绍以及是怎么找到加密js代码。Python3爬取今日头条文章视频数据,完美解决as、cp、_signature的加密方法爬取数据爬取京东商品信息首先需要先获取到他的商品url链...原创 2019-11-18 21:03:10 · 6949 阅读 · 3 评论 -
安装并启动agentpool代理池
agentpoolPython打造自己的爬虫代理池agentpool是基于python3.7版本的。安装python3.7yum -y install gcc gcc-c++ make zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel libffi-deve原创 2020-06-21 00:36:47 · 628 阅读 · 0 评论 -
Python3爬取今日头条文章视频数据,完美解决as、cp、_signature的加密方法
前言任何爬虫工程师在爬取网站数据之前都会对网站进行分析,并且进行逆向(js)破解(加密),所以我们在爬取今日头条的文章和视频数据之前,我们也需要先分析一下今日头条的反爬虫机制以及进行逆向(js)破解(加密)。分析今日头条今日头条某用户的链接:https://www.toutiao.com/c/user/3410443345/#mid=3413306633我们将对今日头条链接进行详细的分析...原创 2019-11-18 21:03:34 · 13188 阅读 · 27 评论 -
Python3爬取今日头条文章视频数据,完美解决as、cp、_signature的加密方法(2020-6-29版)
前言在这里我就不再一一介绍每个步骤的具体操作了,因为在爬取老版今日头条数据的时候都已经讲的非常清楚了,所以在这里我只会在重点上讲述这个是这么实现的,如果想要看具体步骤请先去看我今日头条的文章内容,里面有非常详细的介绍以及是怎么找到加密js代码和api接口。Python3爬取今日头条文章视频数据,完美解决as、cp、_signature的加密方法破解as和cp参数今日头条某用户的链接:https://www.toutiao.com/c/user/token/MS4wLjABAAAAaezOXkHVr0原创 2020-06-29 13:42:51 · 35857 阅读 · 45 评论