
爬虫
没有竹蜻蜓的小叮当
觉得有用的博文知识点个赞+关注吧 博主将不定期更新文章
展开
-
python3 执行AES加密及解密方法
python3 执行AES加密及解密方法转载 2022-12-19 13:40:19 · 1586 阅读 · 0 评论 -
scrapydweb启动报错:sqlite3.OperationalError: no such table: metadata
查了很多有说是python版本的问题,需要降低到3.6,经试验,应该是多个包版本不匹配的问题,最终解决了问题,把过程分享下来,有用的点个赞吧~原创 2022-12-06 11:36:56 · 962 阅读 · 4 评论 -
python GNE 爬虫通用提取文章信息模块
GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE 在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到 100%的准确率。原创 2022-10-21 17:13:33 · 1071 阅读 · 0 评论 -
python js逆向 Hook钩子详解
钩子英文 Hook,在 windows 系统中,所有的都是消息,按了一下键盘,就是一个消息,Hook 的意思就是勾住,在消息过去之前先把消息勾住,不让其执行,然后自己优先处理。也就是这个技术提供了一个入口,能够针对不同的消息或者 api 在执行前,先执行我的操作。“我的操作”就是钩子函数。在开发者工具中以 chrome 插件的方式,在匹配到关键词处插入断点。......转载 2022-08-03 17:20:32 · 710 阅读 · 0 评论 -
Python js反爬知识点汇总
加载html加载js-运行js初始化-用户触发了某个事件-调用了某段js-明文数据-加密参数-加密数据-给服务器发信息(XHR-send)-接受到服务器数据-解密函数-刷新网页渲染。原创 2022-08-02 09:55:35 · 344 阅读 · 0 评论 -
Python 荔枝网 signature详解
最近工作上需要对荔枝网进行搜索解析,在研究过程中,发现了一些有意思(WTF)的问题,希望能给踩到坑的同学一点帮助。文中主要涉及请求表单formdata的格式问题及加密参数x-itouchtv-ca-signature获取进行介绍。...............原创 2022-07-04 10:12:32 · 1285 阅读 · 0 评论 -
Python 教你 4 行代码开发新闻网站通用爬虫
GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。...原创 2022-06-24 15:36:28 · 555 阅读 · 0 评论 -
selenium关闭左上方Chrome 正受到自动测试软件的控制的提示
老版本: 之前老版本这样操作即可,新版的chrome就不行了。怎么办呢?看下面只需要增加3行代码即可统计了options一些常用参数 使用代理 # 禁止策略化 # 解决DevToolsActivePort文件不存在的报错 # 指定浏览器分辨率 # 谷歌文档提到需要加上这个属性来规避bug # 隐身模式(无痕模式) # 禁用javascript # 最大化运行(全屏窗口),不设置,取元素会报错 # 隐藏滚动条, 应对一些特殊页面 # 不加载图片, 提升速度 # 浏览转载 2022-06-22 12:37:11 · 5366 阅读 · 0 评论 -
Python 爬虫时,如何替换 URL 中的 query 字段?
在我们写爬虫的时候,可能会需要在爬虫里面基于当前url生成一个新的url。下一页的链接需要上一页响应里面的参数,例如:https://xxx.cn/comments/hotflow?mid=456116456616146&max_id=123456789&count=20当我们拿到下一页的max_id要替换链接中原来的值,大家可以试一试,如果用正则表达式,怎么覆盖这4种情况,生成下一页的网址。实际上,我们不需要使用正则表达式。Python自带的urllib模块已经提供了解决这个问题原创 2021-10-27 15:10:41 · 847 阅读 · 2 评论 -
Python requests 如何突破反爬虫指纹 JA3算法
这是「进击的Coder」的第 466 篇技术分享 作者:kingname 来源:未闻 Code “ 阅读本文大概需要 6 分钟。 ” 在前几天的文章《为什么随机 IP、随机 UA 也逃不掉被反爬虫的命运》里面,我介绍了 JA3 指纹算法。这个算法可以在你改掉 IP 和 UA 的情况下依然识别到你。 今天,我们来介绍如何在 Python 里面,使用 requests 请求网站的时候,修改 JA3指纹。 requests 是基于 urllib3 实现的。要修改 JA3 相关的底...转载 2021-09-03 15:41:35 · 5311 阅读 · 0 评论 -
python fake-useragent 报错:Maximum amount of retries reached
前言fake-useragent是爬虫中伪装useragent参数的常用模块。然而,从中导入UserAgent模块,并对其实例化时ua=UserAgent()会出现错误:fake_useragent.errors.FakeUserAgentError: Maximum amount of retries reached问题分析进入UserAgent源代码,可以进入setting.py文件,里面包含了fake-useragent在线获取useragent的逻辑。: return '{:.1f}'.format(num)def run(): # 请求下载地址,以流式的。打开要下载的文件位置。 with requests.get('https://vault.centos.org/5.0/updates/SRPMS/autofs-5.0.1-0.rc2.43.0.2.原创 2021-07-07 14:46:58 · 3225 阅读 · 1 评论 -
xpath抓取去除数据空白符
XPATH中使用string()可以获取标签下的所有字符string(//*[@id="discuss"])往往取得的字符中会充斥着大量空白符,使用normalize-space()即可去掉所有空白符normalize-space(string(//*[@id="discuss"]))...原创 2020-04-28 11:15:43 · 3841 阅读 · 0 评论 -
Scrapy 只有在重试的时候使用代理
判断当前retry_times不为空def process_request(self, request, spider): if request.meta.get('retry_times'): proxy = self.get_random_proxy()原创 2020-01-14 23:51:05 · 485 阅读 · 0 评论 -
scrapy---twisted异步IO框架(实现数据的异步写入)
1.引导数据库pymysql的commit()和execute()在提交数据时,都是同步提交至数据库,由于scrapy框架数据的解析和异步是多线程的,所以scrapy的数据解析速度,要远高于数据写入数据库的速度。如果数据写入过慢,会造成数据库写入的阻塞,影响数据库写入的效率。通过多线程异步的形式对数据进行写入...转载 2020-01-14 16:20:37 · 511 阅读 · 0 评论 -
关于Scrapy请求报错捕获异常的解决方法
Scrapy请求报错捕获异常解决对于设置了代理的爬取,可能会出现TimeoutError, TCPTimedOutError, ConnectionRefusedError, ResponseNeverReceived, TunnelError等错误。对此我的解决方式是在下载中间件中设置捕获异常来解决。打开Middleware文件,找到下载中间件,在process_exception中自定义...原创 2020-01-06 10:50:33 · 3173 阅读 · 0 评论 -
Asyncio + uvloop 提升协程速度
AsyncioPython 在 3.4 中引入了协程的概念,3.5 确定了协程的语法,Asyncio 基本概念:Event Loop 事件循环:程序开启一个 While True循环,用户将一些函数注册到事件循环上,当满足事件执行条件时,调用的协程函数;Coroutine 协程对象:使用asnc关键字定义的函数,它的调用不会立即执行函数,而是返回一个协程对象,协程对象需要注册到事件循环...原创 2019-04-23 14:19:25 · 1854 阅读 · 0 评论 -
Appium如何获取appPackage、appActivity
Appium如何获取appActivity打开cmd输入adb shellmonkey -p 包名 -v -v -v 1红框中的.master.amodule.init.InitActivity即为appActivity原创 2019-03-15 15:48:51 · 499 阅读 · 0 评论 -
Python爬虫小偏方:如何用robots.txt快速抓取网站?
作者 | 王平,一个IT老码农,写Python十年有余,喜欢分享通过爬虫技术挣钱和Python开发经验。来源 | 猿人学Python在我抓取网站遇到瓶颈,想剑走偏锋去解决时,常常会先去看下该网站的robots.txt文件,有时会给你打开另一扇抓取之门。写爬虫有很多苦恼的事情,比如:1.访问频次太高被限制;2.如何大量发现该网站的URL;3.如何抓取一个网站新产生的URL,等等;这些问题都困扰着爬虫...转载 2019-01-28 09:20:03 · 239 阅读 · 0 评论