
网络爬虫
文章平均质量分 54
若纷飞
数据是可以有生命的。用数据塑造美好未来。
展开
-
scrapy 深入学习
scrapy 信号:https://blog.youkuaiyun.com/fiery_heart/article/details/82229871https://www.cnblogs.com/c491873412/p/7845635.html转载 2021-09-08 15:11:34 · 106 阅读 · 0 评论 -
SQL 有数据更新,没有数据插入 ON DUPLICATE KEY 比 REPLACE 好用多了,优势和注意点也多!
SQL: ON DUPLICATE KEY比 REPLACE 好用多了,优势和注意点也多!REPLACE 实际操作是:根据索引判断都否存在唯一数据,没有就新增;如果有索引数据,就先删除,在新增。随着数据不断增多,频繁删除索引数据,操作速度会越来越慢。应用场景:针对一行或多行数据,进行数据新增 或 替换。(都是全新的数据,可以理解为 “格式化安装”)如果担心数据被污染,需要以目前数据为基准,可以使用 replace 操作ON DUPLICATE ...原创 2021-05-08 17:51:22 · 235 阅读 · 0 评论 -
python使用execjs执行含有document、window等对象的js代码,使用jsdom解决
转载自:https://www.cnblogs.com/huchong/p/11044238.html当我们分析爬虫时,有时候会遇到一些加密参数,这个时候就需要我们逆向分析jspython执行js有一些第三方库https://www.jianshu.com/p/2da6f6ad01f0因为我用的Python3,所以没用PyV8(安装网上的方法,也没有安装好,可能我太笨了 - -! 如果有会的麻烦指点一下)我用的比较多的就是js2py和execjs有一次在分析js时,我已经找到了.转载 2021-04-27 12:28:02 · 1074 阅读 · 0 评论 -
python md5 加密结果与站长加密不同问题处理
针对数据进行MD5加密逆向时。发现于站长MD5可以将结果加密后得出正确的结果。python加密后,部分数据加密结果不正确!找了很多帖子,发现都没有解决我遇到的问题。后来经过很多次,很多次测试后。发现居然时因为 \\ 的问题!!!例如:{\"data\":\"values\"}站长加密后的结果和python的就时不一样!站长结果:AE900C591208B2B5B17A6E5F24DC7BE1python结果:6EB3AFC8F7588E21A4EA4176596F8151.原创 2021-04-25 16:06:09 · 720 阅读 · 0 评论 -
【解决方案】requests.exceptions.SSLError: HTTPSConnectionPool
requests.exceptions.SSLError: HTTPSConnectionPool原创 2021-03-24 17:41:50 · 4147 阅读 · 4 评论 -
redis安装
一、安装rediscentos安装方法:CENTOS7下安装REDIS第一步:下载redis安装包wget http://download.redis.io/releases/redis-4.0.6.tar.gz第二步:解压压缩包tar -zxvfredis-4.0.6.tar.gz第三步:yum安装gcc依赖yum install gcc第四步:跳转到red...转载 2020-02-20 14:26:50 · 220 阅读 · 0 评论 -
Scrapy 中 settings 配置
Setting设置# -*- coding: utf-8 -*- # Scrapy settings for yangguang project## For simplicity, this file contains only settings considered important or# commonly used. You can find more settin...原创 2018-11-21 19:13:35 · 1481 阅读 · 0 评论 -
python原生爬虫+scrapy+redis分布式
数据获取途径注意:robots.txt1、浏览器版Chrome2、手机版Chrome3、合作网站(猪队友网站)、子网站 请求方式requests.get(url,headers = headers,verify=False,proxies = proxies);requests.post(url,data=data,headers = headers,verify=False,proxies ...原创 2018-04-20 13:09:42 · 2079 阅读 · 0 评论