- 博客(8)
- 收藏
- 关注
转载 微博百万级爬取 Cookie注册机
url = "https://passport.weibo.com/visitor/genvisitor" parameters = { "cb": "gen_callback", ...
2018-09-17 10:01:00
1047
转载 微博自动关注原理讲解
此时正在做一个苏州台的项目,其中有一个功能是实现微信微博的自动关注。 微博本身的url访问时https请求,目前大多数代理服务器是http请求方式,也就因此导致配置上代理后,无法打开微博的链接。从而分析其中的交互请求。 在改版之前抓到了关注的url接口链接。有留存。 格式如下: htt...
2018-01-05 18:45:00
748
转载 Python Requests 版本低于2.13.0 问题
背景:近期在做微信爬取的项目,突然发现内部私有云一直出现 重定向次数溢出 导致抛出异常。 写了单元测试模块,发现在本地,华为云均正常,于是开始从环境入手。发现这三个地方的requests包版本不同。经测试,果然是这个原因。具体为什么会导致这个问题还需要从requests包源码入手。 ...
2017-08-30 10:11:00
1397
转载 python3 PIL包错误
今日在爬虫工作中,解析图片信息的时候发现,有的图片通过PIL的Image方法无法读取,经证实4.1.1 包含这个bug,退到4.0.0版本,问题解决,望采纳。 转载于:https://my...
2017-07-11 19:42:00
211
转载 Kylin测试
Apache Kylin(麒麟)是由eBay开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据。底层存储用的是HBase,数据输入与cube building用的是Hive,中间数据存储用的是HDFS。 适用于海量数据的超快OLAP引擎...
2016-12-22 15:34:00
296
转载 Hue安装部署
1Hue简介 1.1Hue介绍 Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hado...
2016-12-22 15:31:00
493
转载 Tpc-ds测试以及结果
1.1背景介绍 TPC-DS是衡量决策支持解决方案的性能,包括事实上的行业标准,但不限于,大数据系统。 目前版本为V2。它模型的几个一般适用的方面的决策支持系统,包括查询和数据维护。 虽然TPC-DS基本的商业模式是零售产品供应商、数据库架构、数据查询、数据维护人口模型和实施规则被设...
2016-12-22 15:28:00
2094
转载 saltstack自动部署hadoop集群
1.1操作系统 操作系统为:linux-3.10.0-327.el7.x86_64-x86_64-with-centos-7.2.1511-core 或:linux-2.6.32-504.el6.x86_64-x86_64-with-centos-6.6-final ...
2016-12-22 15:13:00
147
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人