
爬虫
文章平均质量分 67
Laozizuiku
这个作者很懒,什么都没留下…
展开
-
objection 常用方法
objection 笔记原创 2024-03-18 15:55:17 · 1677 阅读 · 0 评论 -
神仙pyppeteer_stealth,隐藏WebDriver
import asynciofrom pyppeteer import launchfrom pyppeteer_stealth import stealthasync def main(): browser = await launch(headless=True) page = await browser.newPage() await stealth(page) # <-- Here await page.goto("https://bot.san.原创 2021-06-25 15:43:13 · 1222 阅读 · 8 评论 -
windows下ConcurrentLogHandler因锁机制导致的卡死问题
用concurrent-log-handler替换ConcurrentLogHandler可解决windows因锁机制导致的卡死问题。即pip install ConcurrentLogHandler 改为pip install concurrent-log-handler.大写的好用~感谢老哥的分享作者:PyKailyn链接:https://www.jianshu.com/p/def0a24974e4...原创 2020-12-08 16:06:03 · 727 阅读 · 0 评论 -
pyppeteer 解决修改特征值 webdriver 失效
今天是没有废话的一天await page.evaluateOnNewDocument( '''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => undefined } }); }''')原创 2020-06-29 23:46:41 · 606 阅读 · 0 评论 -
旋转拖动验证码解决方案
曾几何时,你是否被一个旋转验证码而困扰,没错今日主题——旋转验证码。之前也是被他伤透了心,研究了好几天的js,想直接通过接口传输直接解决验证码的,然而我失败了,不过这一次,他来了他来了,他带着RotNet走来了。RotNet也是我无意间发现的,没错时隔了好几个月,他自己出现在我眼前的。这是他的github:https://github.com/d4nst/RotNet/tree/master,他主要是预测图像的旋转角度以校正其方向,库中包括很全,数据集的下载,训练,预测全都有,而且最最最重要的是原创 2020-06-10 12:56:59 · 11765 阅读 · 23 评论 -
百度指数爬取+pyppeteer登录(解决旋转验证码)
百度指数中这些折线上的点是是通过两个字符串加密过的其中,数据接口会返回一个data值作为e值,和一个uniqid用作去请求t值当得到这两个之后会进行一个处理函数decrypt通过带入t和e到decrypt测试,就是我们想要的,python版如下def decrypt_py(t,e): """ :param t: :param e: ...原创 2019-10-30 11:37:53 · 6635 阅读 · 25 评论 -
360指数爬取
故事是面临跳槽的我,被一个hr问我说有没有爬过360指数,我说我没有但是如果是审核标准的话,我完全可以抽空爬爬看。完事那个hr没有回我。好气哦!!!闲来无事我就打开了360指数看了看,确实是有发现有一定的反爬,需要登陆还有就是有的指数需要通过图片来识别,还行啊,360还是给了点余地的。1.登陆我是直接用游览器登陆后的cookie2.指数识别像图片中的这个指数82032,他其实是图片...原创 2019-10-16 22:30:01 · 5228 阅读 · 7 评论 -
asyncio笔记
链接:http://www.magedu.com/2025.htmlPython的 asyncio 类似于 C++ 的 Boost.Asio。异步 IO,就是你发起一个 IO 操作,不用等它结束,可以继续做其他事情,当它结束时,你会得到通知。Asyncio是并发(concurrency)的一种方式。对Python来说,并发还可以通过线程(threading)和多进程(multi...转载 2019-10-16 09:47:27 · 222 阅读 · 0 评论 -
分享docker toolbox v18.09.3 + boot2docker.iso v19.03.1
用于解决老去github上去下载boot2docker.iso v19.03.1的问题下的实在是太慢了,最后使用了idm才下下来的,夸一句,idm真好使啊。。。把这个分享一下给有需要的人,安装的话,我是照着一个老哥做的,超级到位https://blog.youkuaiyun.com/qq_35568099/article/details/80359824网盘地址:https://pan...原创 2019-08-05 11:22:13 · 2015 阅读 · 0 评论 -
app爬取小知识点
aapt获取到appPackage和appActivityappium+夜神模拟器+python安卓app爬虫初体验adb获取到appPackage和appActivity1.adb shell 进入模拟器2.logcat | grep cmp=3.去模拟器打开相应的软件4.查看日志,以斜线分割文字反扒python 爬虫之字体(@font-face)防爬...原创 2019-06-05 17:32:49 · 504 阅读 · 0 评论 -
python requests 爬取腾讯科技的新闻
昨天收到一道面试题爬取http://tech.qq.com/articleList/rolls/的新闻,当时看到的时候简直简单爆了,事实证明的确是,将将将,就是这个页面,很普通啊,开干。。。 1.首先发现在查看源代码的时候看不见这些数据,所以需要js抓一下,注意到url的最后一个参数是个时间戳,然后就是headers里一定要放上referer,不然获取不到的(就因为这个referer...原创 2018-11-01 15:53:25 · 1292 阅读 · 0 评论