一只敲代码的闲鱼-优快云博客

转载 neosemantic 在neo4j 导入wiki RDF

这样就可以了，可能是版本的问题？原文在此，请自取，但是有个问题，我在ubuntu上发现 fetch的时候缺少协议，

2023-08-12 11:52:48 235

原创什么是爬虫

爬虫，这个词对于学习python的小伙伴来说一定不陌生，python语言的简洁性使得在频繁变化的爬虫与反爬的对抗中发挥了很好的作用。那么，到底是什么是爬虫呢？百度，大家都知道，其实百度就是一个最大的爬虫，它回去抓取全网的html页面遵循robots的规则去下载到本地，这也就是搜索引擎的作用。我们一般自己的爬虫只是为了定向的获取到一些目标数据。比如新闻资讯、电商商品数据等等，又很多对技术不是...

2019-06-26 13:40:18 592

转载对一个合数做因式分解

# 求一个数里面所有的质数def Num(num): value_list = [] for i in range(2, num + 1): for j in range(2, i): if i % j == 0: break else: # 求余不为0则为质数 ...

2019-06-18 17:23:33 543

原创 python求小于一个数的所有质数

def Num(num): value = []# 2为最小的质数，从2开始做穷举，直到这个数本身 for i in range(2, num + 1):# 从2到获取到的数求余，余数为0则不是质数，跳出循环 for j in range(2, i): if i % j == 0: break ...

2019-06-18 17:15:07 7836

原创被大佬启悟到算法思想特此记录

一、mysql在分库分表后如何做到插入id自增且唯一答：使用去中心化的思想，借助mac地址、时间戳等一些第三方的标志符用hash生成唯一id，如果是同一毫秒进来的数据，再对这同一毫秒的数据做一个计数，继续生成唯一标识符对数据做区分，这样就可以完成去中心化，免除对id做自增时的第三方服务可能会宕机的问题。二、分库分表后如何进行高性能的查询答：使用类似于跳板机的服务，将你的sql整体传入到...

2019-05-31 15:22:54 177

原创关于app逆向工程的一些方法

本屌是一个苦逼的爬虫，从入行到现在一年多，接触过各种反爬，什么检测自动化之类的都常见了，碰到js加密、app逆向的采集基本都是歇菜了，不过慢慢的还是接触这个，慢慢的学了很多。关于js解密的已经有一篇文章了，如果我说的不明确的话可以留言给我，我会回复的.首先说一下做app逆向的几个工具，1. dex2jar 这是个jar包，版本没啥限制选一个合适的版本就好2.jd-gui这个可以将你反...

2019-05-22 16:25:05 4810 17

原创 npm install.js 卡主的问题

本来是要在docker中安装 puppeteer的安装的时候发现有个 install.js 这一步会一直卡主，原因是因为这个脚本是谷歌被墙了，网上找了很多都没几个靠谱的，很多都是胡咧咧。这里告诉大家一个好方法：npm install cnpmcnpm install puppeteerok问题解决，其实就是装了一个国内的源~...

2019-04-22 11:52:22 1309

本人新手菜鸡一个，但是由于工作中对数据采集的能力要有比较大的考验，之前接手了公司的数据采集系统，主要负责一个日常改版、改接口、改加密方式的某购物网站（具体不透露）。这个网站确实很坑，坑的地方不在于他的商品怎么样，而是以一个纯技术的角度去分析他的接口加密，说在开始，js解密是一个非常枯燥并且很考验一个人的耐心和细心程度。我在这方面还是有待加强。当前这里还有很多技巧性的插件我没有用到，纯用自己的感觉去...

2019-03-20 13:48:26 1074

原创关于一次java httpget 请求bug的处理方式

最近在用java写爬虫的时候遇到一个很特别的问题，特此在此记录一下：HttpGet get = new HttpGet(url); #建立一个get请求CloseableHttpClient closeableHttpClient = HttpClients.createDefault();RequestConfig requestConfig = RequestConfig.cust...

2019-03-15 13:27:32 582

原创记录一次使用scrapy进行数据采集

首先创建你的scrapy项目scrapy startproject testSpider(你的爬虫的名字)(如果你有虚拟环境的话先进入你的虚拟环境中)根据提示进入你的爬虫的目录下cd testSpiderscrapy genspider test 2717.com#test是你的爬虫app的名字，588ku.com是你的目标url创建了你的应用后就可以对你爬虫...

2019-03-07 17:29:55 1061

原创记录一次python高级使用

itertools chain串联可以将两个字符串放在一起迭代from itertools import chaindata1 = "123"data2 = "456"for x in chain(data1,data2): print(x)

2019-03-06 20:58:10 140

原创记录一次Flask + gunicorn + nginx部署

Flask基本的配置和代码就暂时不贴了，这里主要是说一下nginx + gunicorn的通信。首先是gunicorn的配置 gun.conf：import osbind = '127.0.0.1:5000' # 你想要绑定的IP地址和端口号workers = 8 #启动的进程数backlog = 2048 worker_class = "gevent" #使用gevent...

2019-03-06 17:03:08 196

woaidyc的博客