
爬虫
文章平均质量分 91
zhangge3663
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python-css反爬之svg映射
目标网站:http://www.porters.vip/confusion/food.html详细解析可查看:https://blog.youkuaiyun.com/BigBoy_Coder/article/details/104748253import requestsfrom parsel import Selectorimport redef getSvgMapping(): svg_url = 'http://www.porters.vip/confusion/font/food.s.转载 2020-11-20 16:02:29 · 151 阅读 · 0 评论 -
CSS3 @font-face规则
实例指定名为"myFirstFont"的字体,并指定在哪里可以找到它的URL:@font-face{ font-family: myFirstFont; src: url('Sansation_Light.ttf'), url('Sansation_Light.eot'); /* IE9 */}尝试一下 »浏览器支持Internet Explorer 9, Firefox, Opera,Chrome, 和 Safari支持@font-face转载 2020-11-17 11:45:25 · 197 阅读 · 0 评论 -
反爬终极方案总结---字体反爬
最近临时受命,要针对采集我司网站的爬虫进行反制。虽然不太熟悉这个领域,但既然分到咱这儿了,那就上呗,有啥说的,谁让咱是“全栈工程师”呢(牛逼吹的大了点)。原本公司已经有了一套字体反爬的机制,但效果还是不很理想。花了一周的时间进行研究,最终在现有反爬基础之上,总结了本文要讲的方案。说是终极方案,是有些吹牛了,大家都知道爬虫和反爬之家的道高一尺魔高一丈的关系。但这个方案可以很大程度上可以增加普通爬虫的采集成本,在不使用OCR的前提下,算是比较极致的方案了。直接说重点吧!1、扫盲:字体反爬也就转载 2020-11-17 11:22:27 · 446 阅读 · 2 评论 -
【反爬】某网站雪碧图反爬
想要获取这里的库存值,查看审查元素,发现这里的数字不是文本,而是css渲染出来的1.随便点一个数字看看css样式呢2.这里第一个数字1的样式,发现是由图片偏移量得出的3.查看一下这个svg4.本地测试一下样式<head> <style> font[class^="a"]{ background: url("https://xxxx/dist/res/home/images/number/aff.svg") ..转载 2020-11-17 11:15:41 · 227 阅读 · 0 评论 -
爬虫神器!用它可以实时处理和保存 Ajax 数据
做爬虫的时候我们经常会遇到这么一个问题:网站的数据是通过Ajax加载的,但是Ajax的接口又是加密的,不费点功夫破解不出来。这时候如果我们想绕过破解抓取数据的话,比如就得用Selenium了,Selenium能完成一些模拟点击、翻页等操作,但又不好获取Ajax的数据了,通过渲染后的HTML提取数据又非常麻烦。或许你会心想:要是我能用 Selenium 来驱动页面,同时又能把 Ajax 请求的数据保存下来就好了。办法自然是有,比如可以加层代理,用 mitmdump 来实时处理就好了。但如果转载 2020-09-18 09:57:20 · 342 阅读 · 0 评论 -
如何避免Puppeteer被前端JS检测
工具和资料QQ群 - Javascript高级爬虫https://jq.qq.com/?_wv=1027&k=5Bcu3YU -作者自建群,欢迎加入! 中国商标网加密接口https://github.com/rockswang/wsjs.saic.mmewmd -仅做演示 awesome-jave-crawlerhttps://github.com/rockswang/awesome-java-crawler- 作者收集的爬虫相关工具和资料前言这两天开始看puppeteer,发现居..转载 2020-09-17 10:14:54 · 1716 阅读 · 0 评论 -
某数加密的流程与原理简析
啃了这么长时间,基本上已经把某数的套路摸了个八九不离十,不愧是中国反爬界的集大成者,感觉收获满满,这里就简单记录一下分析成果。注意:某数在不同的网站上有不同的版本,其流程也略有不同,这里的流程不一定适用于其它网站。工具和资料之前的文章1- 记录了之前尝试的其它方法 之前的文章2- 对加密混淆后的js的一些初步分析 awesome-java-crawler- 我收集的爬虫相关工具和资料 java-curl- 我编写的java HTTP库 另一个用了某数加密的网站的破解SDK前端流程...转载 2020-09-04 13:45:47 · 570 阅读 · 0 评论 -
爬虫进阶:反反爬虫技术--5 网页隐藏信息
1、注意网页隐藏的信息在HTML表单中,"隐含"字段可以让字段的值对浏览器可见,但是对用户不可见(除非看网页源代码)。随着越来越多的网站开始用cookie存储状态变量来管理用户状态,在找到另一个最佳用途之前,隐含字段主要用于阻止爬虫自动提交表单。下图显示的例子就是Facebook登录页面上的隐含字段。虽然表单里只有三个可见字段(username、password和一个确认按钮),但是在源代码里表单会向服务器传送大量的信息。Facebook 登录页面上的隐含字段用隐含字段阻止网络数据采集的转载 2020-09-04 13:11:57 · 2636 阅读 · 0 评论 -
使用pyppeteer爬取淘宝商品
之前我用pyppeteer绕过了淘宝登录时对于web driver的检测,但是这并不意味这登录后就没有检测了,今天我就来以爬取搜索关键字得到的商品名称为例操作一下。整个过程有 4 步:1.登录,2.输入关键字并点击搜索,3.滑到最底部并获取数据,4.点击下一页,然后重复步骤 3,4 直到没有下一页(实际上一个账号并不能每一页全部爬完,要想全部爬完可能要买或者借账号,下面的教程我只爬前几页的数据)。然后就是要搭好一个框架,为了让程序看起来简单,我就使用面向对象的设计方法来设计这个程序,大致代码如下.转载 2020-08-24 17:14:07 · 1207 阅读 · 0 评论 -
Python爬虫神器pyppeteer
简介pyppeteer是非官方 Python 版本的 Puppeteer 库,浏览器自动化库,由日本工程师开发。Puppeteer是 Google 基于 Node.js 开发的工具,调用 Chrome 的 API,通过 JavaScript 代码来操纵 Chrome 完成一些操作,用于网络爬虫、Web 程序自动测试等。pyppeteer使用了 Python 异步协程库asyncio,可整合 Scrapy 进行分布式爬虫。pyppeteer维护得不好;puppet 木偶;puppet...转载 2020-08-24 16:30:47 · 1108 阅读 · 0 评论 -
排名前20的网页爬虫工具
网络爬虫在许多领域都有广泛的应用,它的目标是从网站获取新的数据,并加以存储以方便访问。而网络爬虫工具越来越为人们所熟知,因为它能简化并自动化整个爬虫过程,使每个人都可以轻松访问网络数据资源。 ###1. OctoparseOctoparse是一个免费且功能强大的网站爬虫工具,用于从网站上提取需要的各种类型的数据。它有两种学习模式 - 向导模式和高级模式,所以非程序员也可以使用。可以下载几乎所有的网站内容,并保存为EXCEL,TXT,HTML或数据库等结构化格式。具有Scheduled Cloud.转载 2020-06-05 10:55:50 · 2571 阅读 · 0 评论