爬虫
文章平均质量分 95
Crazy__Hope
我沉默不是因为我冷漠,只是不知道该怎么说...
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
针对文章内容进行去重
最近公司项目抓取新闻板块内容,但是多个网站之间,重复新闻的概率很高(因为大多数新闻网站的内容都是互相爬取的),所以我自己想了一个针对内容的去重方法。 大概思路是: 取文章当中最长的3句话(当然这个值可以自己随意指定),默认只接收列表,然后进行hash,把hash值存储在redis中,因为相同的内容生成hash值是一样,其实去重原理就跟scrapy-redis很类似… 具体实现代原创 2018-01-13 19:23:15 · 2723 阅读 · 0 评论 -
反爬之字体图片反爬
在前端中,字体图标具有 轻量,灵活,兼容性好等优点,但是没想到有公司拿他做反爬手段。例如抖音。下面看下他怎么做的。我们直接打开页面,在我划箭头的数字地方,抖音都应用了字体图标反爬。接下来打开调试控制台,找到相应的css。 点击最右侧的css样式链接。“@font-face” 是前端中定义字体图标的固定写法。 我们直接找到后缀为.svg的url链接,下载下来 svg文件下载下来,用no...原创 2019-07-03 11:58:24 · 935 阅读 · 0 评论 -
逆向js之解析响应加密信息
前些时候,看到有人在群里发了一个网站,说是返回的data参数是加密信息, 无法解析data保存相关信息。 想到好久没写文章了,于是乎就去看了一下, 准备那这个当素材。 首先打开网站是这样的(网站地址: http://yc.wswj.net/ahsxx/LOL/public/public.ht...原创 2019-05-14 11:29:24 · 1497 阅读 · 0 评论 -
Python爬取微信公众号文章
本篇文章使用到的技术: mitmdump + 电脑版微信先分析打开可视化抓包工具, 勾选https代理。然后打开电脑版微信任意点击一个公众号,再点击查看历史消息打开后这样向下滑动右侧的滚动条,同时观察抓包软件,有新的数据加载即可停止滑动,仔细分析抓包软件的数据呐,接口已经找到了。 下面来分析它的请求参数上面这些参数我们后面通过mitmdump抓到就可以使用,关键点在于如何构...原创 2019-01-09 19:46:45 · 7354 阅读 · 5 评论 -
爬虫应对反爬之css反爬
最近看到一个网站有css反爬,感觉比较有意思,这里就顺手破解一下,纯做技术分享首先打开它的站点,感觉是个很low又没有任何反爬的站点,它长这样:很单纯的列表页,此页面无任何反爬,直接分析拿到详情页的地址即可。有意思的来了…任意打开一篇详情页文章可以看到它是一个字一个字的显示的,而有的字是不显示的,通过css障眼法隐掉不显示的字,剩下的就是完整的内容啦。可以看到这些字只有一个class...原创 2019-01-18 11:24:23 · 4316 阅读 · 0 评论 -
html文本保存为chm文档,并建立索引
上节讲解了如何抓取微信公众号文章,这节就来搞搞怎样保存,方便自己以后查阅。 这里我选择了chm。有三个原因: 1.chm可以建立索引,查阅文章比较方便 2. chm暂时没发现有啥存储问题,例如图片不显示 3. 管理方便,一个公众号一个chm那么接着上回...原创 2019-01-10 22:34:36 · 4316 阅读 · 0 评论 -
美拍小视频去水印
分享一下逆向js的经验进入美拍任意一个视频页面,通过F12控制台通过点击顺序到js中,全局搜索mp4,可以找到一下代码这里发现比较可疑,打个断点,重新刷新页面,断点到此处,然后点击下一步断点来到6114行,把鼠标放到a上,可以发现,就是页面传过来的data-video这个属性的值。可以发现,a这个变量经过了什么步骤,相应的函数在上方也有。至于有些里面有些 h,k是啥,在上面也有...原创 2018-12-13 21:36:21 · 3187 阅读 · 8 评论 -
opencv实现视频抽帧,作为其视频封面(python)
在使用爬虫的过程中,爬到的视频没有视频封面,这时就需要我们手动给他添加一个视频封面,那么opencv就登场了,我们可以使用它抽取视频中的任意一帧保存下来,作为其视频封面import cv2def get_video_pic(name): cap = cv2.VideoCapture(name) cap.set(1, int(cap.get(7)/2)) # 取它的中间帧...原创 2018-03-12 20:56:20 · 5394 阅读 · 2 评论 -
windows部署SpiderKeeper(爬虫监控)
博主部署SpiderKeeper环境是windows, 相信用Linux的同学部署起来也没有任何问题.第一步: mkvirtualenv 创建虚拟环境 Linux虚拟环境配置 Windows虚拟环境配置第二步:workon spiderkeeper (本人创建的虚拟环境spiderkeeper)pip install spiderkeeperpip instal原创 2018-02-07 05:05:33 · 7008 阅读 · 18 评论 -
爬虫常用的小工具(谷歌插件)
为了方便爬虫代码的快速编写,及业务功能实现,现分享三个我常用的谷歌插件。 1. xpath,全名XPath Helper 在QUERY里可直接写XPATH规则,获取想要的数据 2. JSON-handle 此工具可把通过ajax请求网页的返回数据直接转换成比较好看的json格式,方便我们分析数据。 3.User-Agent Swicher 这个工具可直接修改原创 2018-01-18 19:57:49 · 18102 阅读 · 0 评论 -
centos 安装twisted 报错error: command 'gcc' failed with exit status 1
我的环境是 centos + python3.4 安装twisted报错,error: command ‘gcc’ failed with exit status 1 解决办法: yum install python34-devel安装完了就好了,针对这个问题,网上的版本太多,但是好像只有这个适合我原创 2018-01-30 17:03:22 · 968 阅读 · 0 评论 -
json数据键值对两端没有引号怎么转字典
最近碰到一个网站,返回的数据巨恶心,如果用正则或者其它的方法一个一个找规则替换,非常麻烦。直接使用json.loads肯定是会报错的。 返回数据如下,具体多恶心,自己试一试就知道了!{ serverSeconds : 1515659363, last_time : 1515659104, path : [{title : "全部", id : "89", cType : "c原创 2018-01-13 20:08:42 · 3482 阅读 · 0 评论 -
破解58同城字体反爬
1. 前言最近接了一个私活,破解58同城的css反爬。现在决定把它开源出来,以便大家参考学习。2. 主题首先,打开页面,了解到这部分信息是有字体加密的。如下图:这部分信息包含 性别 年龄 学历 还有工作经验。 这部分信息需要经过转换,才能达到我们想要的数据。可以看到它数据加密部分,都引用了一个叫stonefont的class,我们观察一下这个class经过观察发现 这里引用了wo...原创 2019-08-14 18:59:01 · 9029 阅读 · 4 评论
分享