- 博客(57)
- 收藏
- 关注
原创 从头学习爬虫(四十七)进阶篇----探索网易云音乐私信功能
本文主要帮助解决探索一下网易云私信功能一 需求测试一下私信功能接口二 分析请求参考之前的那篇网易云音乐博客1.找到加密前json2.跳传到控制台打印i7b内容得到3.代码就按之前的改一下cookie写死(时效性很强没必要去掉登入接口)4.参数写死第一次发送没问题,但是第二次发送可以得到,基本上是checkToken相关{"code":250,"msg"...
2020-03-26 17:40:55
1330
原创 架构设计
架构设计文章目录架构设计部署方式集中式分布式分布式通信单播(点对点)组播广播分布式存储副本一致性分布式计算幂等性全局唯一ID去重表插入或更新多版本控制状态机控制非功能性需求高可用负载均衡负载均衡方式Nginx负载均衡的介绍Dubbo内置负载均衡策略限流限流的必要性限流算法基于Redis 实现限流限流模块熔断熔断设计隔离设计降级重试soga高性能池化批处理多级缓存网络CDNHTTP缓存本地寄存器一...
2020-01-09 19:03:44
1732
原创 Redis知识点整理
redis文章目录redis数据结构SDS普通字符串动态SDS字符串SDS结构体扩容策略链表字典哈希表哈希表节点字典结构解决键冲突rehash(重新散列)那么什么时候才会rehash呢?rehash的实现原理渐进式rehash跳表跳表有多快?跳表有多占内存?skiplist与平衡树、哈希表的比较2.1 Redis中跳跃表的实现Redis跳跃表常用操作的时间复杂度跳表总结整数集合整数集合升级过程整...
2020-01-06 14:28:41
523
1
原创 从头学习爬虫(四十六)高阶篇----selenium获取network
本文主要帮助解决selenium获取network一 需求想用selenium获取network拿到请求头 可以通过请求头方式去请求提高效率。二 分析技术难点查了很多资料,也看了源码没有找到network的工具类或者接口。但是换个思路找到dev-tools可以通过http接口去获取。相关资料https://stackoverflow.com/questions/6...
2019-08-28 17:43:56
8454
8
原创 从头学习爬虫(四十五)高阶篇----字体加密
本文主要帮助解决字体加密的反爬虫策略一 需求https://www.china.cn/buy/4432149572.html二 分析请求页面展示显然是字体进行了加密,然后打开字体和其他看看有没有加载字体的资源文件,发现没有。看响应内容可以发现一个base64的字体文件。三 实操首先把base64转成文件 //BASE64解码成File...
2019-08-06 15:25:40
633
原创 从头学习爬虫(四十四)高阶篇----wzwschallenge破解及其wzws_cid的获取
本文主要提供中间模拟生成Cookie中wzwschallenge字段来破解wzws_cid的反爬虫机制前后通过postman模拟代替代码实现一 需求http://nanjing.pbc.gov.cn/nanjing/117606/3834479/index.html需要爬取其内容裁判文书网同原理(侵权删除)二 分析请求发现3个请求构造一个完整页面,第一个请求返回了 ...
2019-06-04 00:47:59
6967
1
原创 从头学习爬虫(四十三)进阶篇----cookie和token注意事项
本文主要探讨cookie和token的注意事项一 会话 session当我们正常发送一个请求去跟网站交互,一般是通过会话session绑定,有个sessionid是存在服务器上的。二 cookie由于session是有有效期的,所以我们浏览器为了更方便的访问网站会生成cookie,便于下次重新访问。三 token相当于凭证号每次访问或者每一个请求。四 注意事项在使用...
2019-06-03 23:14:26
1531
原创 从头学习爬虫(四十二)高阶篇----模拟真正浏览器的selenium
本文主要讲述1、selenium与真正浏览器的区别2、模拟方法一 介绍selenium打开chrome或者firefox或者其他浏览器,与其真正浏览器不同的是加载参数(站在需要模拟浏览器进行自动化的方面)。所以经常看到的是加载参数有headless、disable-infobars、ignore-certificate-errors.....二 问题selenium其实...
2019-02-20 23:58:58
3627
原创 从头学习爬虫(四十一)高阶篇----模拟js生成Hearder中X-Request-token、X-Request-ts
本文主要提供中间模拟生成Hearder中X-Request-token、X-Request-ts前后通过postman模拟代替代码实现一 需求https://yc.yonyoucloud.com/cpu-fe-tender/dist/inquirydetail/index.html?id=77556&from=nfsn爬取信息二 分析请求主要找个这个ajax...
2018-11-05 17:38:25
2498
原创 从头学习爬虫(四十)高阶篇----模拟js生成Cookie中__jsl_clearance来破解加速乐的反爬虫机制
本文主要提供中间模拟生成Cookie中__jsl_clearance字段来破解加速乐的反爬虫机制前后通过postman模拟代替代码实现一 需求http://www.cyicai.com/information/applyForSubscription需要爬取二 分析请求分析了一下 第一个521 请求cookie 没有__jsl_clearance第二个请求里就有...
2018-09-20 19:55:18
8231
1
原创 从头学习爬虫(三十九)进阶篇----手机APP抓包
Charles是一款非常实用的抓包工具。它通过电脑端代理,拦截网络请求和响应来实现数据包的抓取。支持http/https。安装Charles需要Java环境,在安装之前确保已有配置Java运行环境。然后到官网下载Charles并安装。破解的话,可以使用网友提供的工具: Charles 在线破解。设置打开Charles抓包工具:Charles电脑端设置代理:Proxy —> Proxy Set...
2018-07-16 10:47:39
5274
原创 关于BigDecimal.ROUND_HALF_UP与ROUND_HALF_DOWN
由于ROUND_HALF_UP和ROUND_HALF_DOWN涉及到金额的区别然而翻了其他博客基本都是错的,所以概述下这个问题(实际可能遇不到)。一 基础知识ROUND_HALF_UP: 遇到.5的情况时往上近似,例: 1.5 ->;2ROUND_HALF_DOWN : 遇到.5的情况时往下近似,例: 1.5 ->;1二 补充知识ROUND_HALF_UP: 遇到.5的情况时往上近似,...
2018-07-06 14:38:11
38881
2
转载 Druid【线上问题】由防火墙导致的数据库空闲连接断开问题
转载自http://www.cnblogs.com/trust-freedom/p/6992952.html问题描述公司一个新项目上线,处于试运行阶段,这个项目虽然是外网可访问的,故部署在了DMZ区,但试运行阶段只给了公司内少部分员工地址和账号(其中包括一些领导),故访问量很小,但项目还是挺重要的。试运行阶段中,项目应用日志中不定期会报异常,尤其是在刚上午刚开始使用时,还有空闲一段时间后再次使用时...
2018-07-04 15:13:46
5108
1
转载 学习正则
翻译:EnglishEspañolFrançais中文版日本語한국어TurkishGreekMagyarPolish什么是正则表达式?正则表达式是一组由字母和符号组成的特殊文本, 它可以用来从文本中找出满足你想要的格式的句子.一个正则表达式是在一个主体字符串中从左到右匹配字符串时的一种样式."Regular expression"这个词比较拗口, 我们常使用缩写的术语"regex"或"regexp...
2018-07-03 10:11:34
433
原创 权重随机算法
主要用于计算代理ip池设计,实现概率选择优质代理ip,所以简单写了个权重随机算法。如果量大注意int 超限,默认20次 支持107374182个ip。权重对象类public class IpWeight { private String address;//地址 private int weight=20;//可用次数 public String getAddress(...
2018-07-02 09:36:39
1000
转载 python selenium 使用cookies免登陆,与requests使用cookies免登陆的差别
原址:https://blog.youkuaiyun.com/qq_38282706/article/details/80639803要点:1.selenium的cookies是多个字典组成的list,而且有很多键值 2.selenium 想要添加cookies,得先登录对应域名的网址,再添加,一旦cookies里有不同域名(domain)就会报错! ...
2018-06-26 14:48:16
2254
转载 Java加密套件强度限制引起的SSL handshake_failure
此篇文章来源为http://xwiz.cn ,原作者邮箱JieChenCN@qq.com今天为客户解决了一个奇葩的SSL问题。通过Java代码使用HttpURLConnection去连接https系统时候总是报错handshake_failure。而使用浏览器访问一切正常。记录下诊断的过程。HttpURLConnection的调用非常简单。HttpURLConnection connection ...
2018-06-12 15:22:29
12726
1
原创 从头学习爬虫(三十八)进阶篇----教务网课程表下载
教务网。。如有侵权删本文主要分析流程,实现教务网课程表下载。http://59.57.242.167/jwweb/ZNPK/KBFB_ClassSel.aspx1 页面分析 两个请求2 编写代码。发送get请求,获取img3 报错4 分析必须先post 再get实例化对象5 响应乱码6 解决乱码主要是二进制流,但是后面html需不需要去除位置JFIF转化jpeg需不需要标识7 demo测试8 结论...
2018-06-11 11:29:54
1331
原创 利用背景图片生成词云
aaaafrom wordcloud import WordCloud,ImageColorGenerator,STOPWORDSimport jiebaimport matplotlib.pyplot as pltfrom PIL import Imageimport numpy as np #读取txt数据 我就爬了点csdn的内容text = open('D://ciyun//...
2018-05-18 14:49:39
6821
原创 从头学习爬虫(三十六)进阶篇----Selenium高级进阶
引自:自上世纪末Kent Beck提出TDD(Test-Driven Development)开发理念以来,开发和测试的边界变的越来越模糊,从原本上下游的依赖关系,逐步演变成你中有我、我中有你的互赖关系,甚至很多公司设立了新的QE(Quality Engineer)职位。和传统的QA(Quality Assurance)不同,QE的主要职责是通过工程化的手段保证项目质量,这些手段包括但不仅限于编...
2018-05-17 18:09:42
3500
2
原创 从头学习爬虫(三十五)重构篇----WebMagic的坑
本文介绍WebMagic的一些用法以及用法。一 ssl问题老版本没有加支持协议github可能会遇到以下问题,更新最新版本或者使用以下解决方案绕过ssl时,没有支持版本(maven 0.7.3还是老的 还是有错的 建议去github clone)javax.net.ssl.SSLException:Receivedfatalalert:protocol_version...
2018-05-13 16:13:49
6360
6
转载 爬虫代理哪家强?十大付费代理详细对比评测出炉!
原文地址:https://cuiqingcai.com/5094.html侵权自动删除前言随着大数据时代的到来,爬虫已经成了获取数据的必不可少的方式,做过爬虫的想必都深有体会,爬取的时候莫名其妙 IP 就被网站封掉了,毕竟各大网站也不想自己的数据被轻易地爬走。对于爬虫来说,为了解决封禁 IP 的问题,一个有效的方式就是使用代理,使用代理之后可以让爬虫伪装自己的真实 IP,如果使用大量的随机的代理进...
2018-05-11 16:45:11
6551
2
原创 从头学习爬虫(三十四)实战篇----动漫之家漫画(Scrapy实战)
本文主要由于改造Scrapy下载中间件拖了比较久,安装模块自行解决。一 创建项目创建项目:CMD进入你需要放置项目的目录 输入:scrapy startproject XXXXX XXXXX代表你项目的名字二 导入IDE由于IDE不一样这边自行解决结构如上三 IDE配置可以直接运行ScrapyScrapy默认是不能在IDE中调试的,我们在根目录中新建一个py文件叫:ent...
2018-05-11 16:32:36
4992
原创 从头学习爬虫(三十三)实战篇----那些年的坑
本文主要介绍下一直以来在爬虫中的那些坑一 jsoup、html格式上次虎扑出现的坑请求里面我的xpath写div[@class=piclist3']/table/tr/td/a 居然拿不到而我用div[@class=piclist3']/table/tbody/tr/td/a 居然拿到了浏览器里面让我们觉得第三个怎么说的不对,然而我发现请求刚拿到的时候是没有这个tbody那么这个是哪里来的。我们...
2018-05-06 00:20:40
2818
原创 从头学习爬虫(三十二)实战篇----动漫之家漫画(Python实现)
本文主要用python实现动漫之家的爬取如果有安装模块疑问请自行百度,有代码格式问题,也可以在下方回复分为两部分跟java那部分一样分为无框架和scrapy框架实现,步骤和实现原理都是一样的可以参考前篇代码不再详细注释无框架from selenium import webdriver from selenium.webdriver.common.keys import Keysfrom sel...
2018-05-06 00:19:46
5967
原创 从头学习爬虫(三十一)实战篇----动漫之家漫画(Java实现)
本文主要用Java selenium实现点击打开漫画如果有selenium配置问题请前往从头学习爬虫(十)进阶篇----selenium回顾未使用框架import java.io.BufferedInputStream;import java.io.BufferedOutputStream;import java.io.File;import java.io.FileOutpu...
2018-05-04 16:12:15
4657
4
原创 从头学习爬虫(三十)实战篇----动漫之家漫画(分析)
本文主要分析爬取流程。点击打开漫画我下的漫画是食灵一 列表页请求和浏览器所获得的页面大致一样,所以照着写xpath,拿到列表页链接.xpath("//div[@class='cartoon_online_border']/ul/li/a/@href").all();二 详情页首先发现每次要点下一张,才能有这一话所有的漫画,我们先点击从上到下,让他全部加载。然后可以发现Cookie里面display...
2018-05-04 16:11:47
3903
原创 从头学习爬虫(二十九)实战篇----WebMagic爬优快云博客
WebMagic入门实战下优快云,20行代码实现爬取标题spiderimport java.util.List;import us.codecraft.webmagic.Page;import us.codecraft.webmagic.Site;import us.codecraft.webmagic.Spider;import us.codecraft.webmagic.proce...
2018-05-03 17:37:26
3317
2
原创 从头学习爬虫(二十八)python篇----requests库
本文主要介绍requests第三方库,这个库可不是Python3内置的urllib.request库,而是一个强大的基于urllib3的第三方库。实战虎扑gif封面# -*- coding:UTF-8 -*-from bs4 import BeautifulSoupimport requestsfrom urllib.request import urlretrievefrom lxml ...
2018-05-02 15:04:18
2634
原创 从头学习爬虫(二十七)python篇----urllib
本文主要介绍用urllib去抓取网页。去看看百度首页from urllib import requestimport chardetif __name__ == "__main__": headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gec...
2018-05-01 20:59:02
2543
转载 国内外电商平台反爬虫机制报告
转载自http://www.freebuf.com/articles/web/137763.html电商平台的核心引擎大致分为两块,搜索架构和产品布局,应该说各有各的特色。当然今天的主题是反爬虫机制,电商平台如何能保护好自己的数据,又不影响正常用户体验,所谓当今业界一场持久的攻防博弈。一阶爬虫(技术篇)应用场景一:静态结果页,无频率限制,无黑名单。攻:直接采用scrapy爬取防:nginx层写lu...
2018-04-28 10:58:26
3209
原创 从头学习爬虫(二十六)创新篇----Robots.txt
什么是robots文件robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。为了避免站长在设置robots文件时出现,百度站长平台特别推出了robot...
2018-04-28 10:23:32
3586
原创 从头学习爬虫(二十五)重构篇----WebMagic框架分析之细节
这个框架有很多细节等着我们去发现,本文主要介绍下。线程池设计对于小白来说可以好好学习下package us.codecraft.webmagic.thread;import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;import java.util.concurrent.atomic...
2018-04-14 20:18:44
3116
原创 从头学习爬虫(二十四)重构篇----WebMagic框架分析之scheduler
这系列文章主要分析分析webmagic框架,没有实战内容,如有实战问题可以讨论,也可以提供技术支持。 欢迎加群313557283(刚创建),小白互相学习~ Scheduler我们先来看看接口package us.codecraft.webmagic.scheduler;import us.codecraft.webmagic.Request;import us.co...
2018-04-14 19:51:37
3475
原创 从头学习爬虫(二十三)重构篇----WebMagic框架分析之pipeline
这系列文章主要分析分析webmagic框架,没有实战内容,如有实战问题可以讨论,也可以提供技术支持。欢迎加群313557283(刚创建),小白互相学习~Pipeline我们先来看看接口,就一个process 方法package us.codecraft.webmagic.pipeline;import us.codecraft.webmagic.ResultItems;import us.c...
2018-04-14 19:26:29
4000
原创 从头学习爬虫(二十二)重构篇----WebMagic框架分析之downloader
这系列文章主要分析分析webmagic框架,没有实战内容,如有实战问题可以讨论,也可以提供技术支持。欢迎加群313557283(刚创建),小白互相学习~Downloader我们先来看看接口package us.codecraft.webmagic.downloader;import us.codecraft.webmagic.Page;import us.codecraft.webmagic...
2018-04-14 18:59:52
5933
原创 从头学习爬虫(二十一)重构篇----WebMagic框架分析之resultItems
这系列文章主要分析分析webmagic框架,没有实战内容,如有实战问题可以讨论,也可以提供技术支持。欢迎加群313557283(刚创建),小白互相学习~ResultItemspackage us.codecraft.webmagic;import java.util.HashMap;import java.util.LinkedHashMap;import java.util.Map;...
2018-04-14 16:32:33
3511
原创 从头学习爬虫(二十)重构篇----WebMagic框架分析之request
这系列文章主要分析分析webmagic框架,没有实战内容,如有实战问题可以讨论,也可以提供技术支持。欢迎加群313557283(刚创建),小白互相学习~Requestpackage us.codecraft.webmagic;import us.codecraft.webmagic.model.HttpRequestBody;import us.codecraft.webmagic.util...
2018-04-14 16:28:57
3595
原创 从头学习爬虫(十九)重构篇----WebMagic框架分析之page
这系列文章主要分析分析webmagic框架,没有实战内容,如有实战问题可以讨论,也可以提供技术支持。欢迎加群313557283(刚创建),小白互相学习~Pagepackage us.codecraft.webmagic;import org.apache.commons.lang3.StringUtils;import us.codecraft.webmagic.selector.Html;...
2018-04-14 16:22:22
3053
3
原创 从头学习爬虫(十八)重构篇----WebMagic框架分析之site
这系列文章主要分析分析webmagic框架,没有实战内容,如有实战问题可以讨论,也可以提供技术支持。欢迎加群313557283(刚创建),小白互相学习~Sitepackage us.codecraft.webmagic;import us.codecraft.webmagic.utils.HttpConstant;import java.util.*;/** * Object con...
2018-04-14 16:07:15
3416
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人