- 博客(32)
- 问答 (4)
- 收藏
- 关注

原创 文本相似度算法的对比及python实现
文本相似度算法的对比及python实现前言通常我们有这样的需求:对两篇文章或者产品内容进行重复率查询。为了解决类似的问题,罗列了一些常见的相似度算法,用python代码实现。五种常见的相似度算法:余弦相似度(cosine_similarity)、jaccard相似度、编辑距离(Levenshtein)、MinHash、SimHash + 海明距离。代码是一位前辈留下的,做一下整理分享出来...
2019-11-01 15:02:21
15091
16

原创 亚马逊商品信息爬取
亚马逊商品信息爬取国内的电商网站,淘宝、京东、拼多多都爬取过了,今天来爬取一个对跨境电商很重要的亚马逊电商平台。一、爬取分析亚马逊全部商品接口为:https://www.amazon.cn/gp/site-directory/ref=nav_deepshopall_variant_fullstore_l1 ,通过该接口可以获取到需要的分类商品信息。和之前一样,分为大分类、中分类、小分类,一...
2019-03-18 11:25:22
9000
3

原创 拼多多商品信息爬取
拼多多商品信息爬取爬取完几个主流电商平台的信息,今天想着也去攻克一下拼多多。于是先去GitHub上面找一下有没有哪位大神搞过了借鉴一下,然后果然发现一个好用的接口。想着既然找到了就先下载下来跑一下,嗯。。。“热门”的感觉可以,应该很简单。然后就兴高采烈地扩展一下别的商品种类,果然很多坑。。一、思路分析经过谷歌F12工具一番分析,总结一下爬取思路:1、“热门”商品比较特殊,其他商品种类有...
2019-02-28 17:28:21
41027
51
原创 Squid安装与配置(ip代理)
继前面一篇,在实际使用中会发现在请求一些网站时会被拒绝,那是因为Tinyproxy其实不支持所谓的高匿代理。所以这次用功能更加丰富的squid试试。
2023-12-05 16:22:35
1768
1
原创 pyenv安装3.10版本问题记录与修复
要求openssl版本1.1.1+,直接更新。最后可以再次验证openssl版本。系统:centos7。重新安装python。
2023-05-05 17:36:24
1860
1
原创 python实现redis rdb迁移
找了一圈redis迁移工具,包括:redis-port、redis-shake、redis-dump等等,涉及到各种语言和环境,折腾了半天没有成功。。最后还是自己写吧。利用这个强大的python库简单写一个适用于单机的redis迁移脚本。
2023-03-02 10:57:33
386
原创 pyenv环境管理
pyenv安装依赖sudo yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel libpcap-devel xz-devel gcc -y安装pyenv提前安装git,yum install git -ymkdir ~/.pyenvgit clone git://github.com/yyuu/pyenv.git ~/.pye
2021-08-13 15:35:50
397
原创 docker常规数据库使用
docker官方镜像文档:https://github.com/docker-library/docs。从官网下载redis.conf配置文件,
2021-08-13 15:35:06
411
1
原创 Tinyproxy安装与配置(ip代理)
安装Tinyproxy1、编写一键安装脚本vim proxy.sh添加内容#! /bin/bash# 下载wget -P /opt/software https://github.com/tinyproxy/tinyproxy/releases/download/1.11.0-rc1/tinyproxy-1.11.0-rc1.tar.gz# 解压mkdir /opt/modulecd /opt/softwaretar -zxvf tinyproxy-1.11.0-rc1.tar.g
2020-12-11 11:48:06
51933
5
原创 多ip服务器绑定ip发送请求(requests和scrapy)
多ip服务器绑定ip发送请求(requests和scrapy)有时候我们会购买多ip服务器(站群服务器),来满足特定的需求,比如建站,SEO等。多ip服务器通常是ip越多价格越贵,ip段也有优劣之分。对于爬虫而言,200多个ip,合理利用的话也可以满足很多需求了。本篇文章针对python的两个爬虫库:requests和scrapy,怎么绑定指定ip发送请求做的整理笔记。1、获取本机所有ip第一步就是要知道本机有多少可用的ip。import psutildef get_local_ips(
2020-11-12 16:49:35
1334
1
原创 获取秒级股票详细数据——Ajax-hook
获取秒级股票详细数据——Ajax-hook1、分析数据首先看看有哪些数据可以获取网站:雪球网,随便打开一只股票可以发现,在工作日期间,每隔几秒都会有这么多xhr请求。看看里面有一些什么数据。仔细研究可以发现,基本上页面上的数据都可以找到,除了实时的ticks数据,还有什么五档盘口,成交明细等等。大概这个页面的数据都可以,有兴趣就去慢慢对应吧(代码里应该有相关映射)。2、实现思路与代码按照正常逻辑,我们只要去不断的请求这些接口就可以获取到数据了,而且这些数据基本上没有什么加密(就是没
2020-08-25 09:38:48
2690
原创 RPC实现伪个性化推荐方案——python
RPC实现伪文章推荐方案——python一、相关概念RPC远程过程调用(英语:Remote Procedure Call,缩写为 RPC,也叫远程程序调用)是一个计算机通信协议。该协议允许运行于一台计算机的程序调用另一台计算机的子程序,而程序员无需额外地为这个交互作用编程。如果涉及的软件采用面向对象编程,那么远程过程调用亦可称作远程调用或远程方法调用。GRPCgRPC是由Google公司开源的高性能RPC框架。gRPC支持多语言。gRPC原生使用C、Java、Go进行了三种实现,而C语言实现
2020-07-02 16:32:51
319
原创 js逆向实战之AES加密
前言仅学习之用,勿商,侵删。目标网站:aHR0cHMlM0EvL3d3dy5tYW9tYW96dS5jb20vJTIzL2J1aWxk环境node(执行破解js,提供接口)python3.6(执行爬虫)开始!分析请求页面,白白净净三条Ajax。随便进去看看请求头和返回的数据。好球,都是加密的数据。接下来找到加密位置。八仙过海,可以尝试直接搜索常见的关键词:md5,base64,RSA,ASE,encrypt,decrypt,JSON.parse等等。或者用油猴插件一次性hook
2020-06-17 11:29:39
2177
原创 js逆向常见加密算法——python
js逆向常见加密算法——python整理(copy)一下js逆向过程中常见的加解密方法,方便查阅。从熟悉的python开始吧。有些做一点点简单的封装。原理什么的搜索解决。base64# -*- coding: utf-8 -*-import base64def encode_base64(data, encode_method="utf-8"): """ base64加密 :param data: 待加密字符串 :param encode_method:
2020-06-17 11:28:47
1033
原创 大众点评数据信息获取——字体反爬
大众点评数据信息获取——字体反爬大众点评的字体反爬算是比较常见的,这次来学习一下相关字体反爬的技巧以店铺的评论页面和店铺列表页面进行研究,分别对应了css字体映射,woff字体加密的反爬虫手段。1、店铺评论页——css字体映射(svg)随便打开一个链接:http://www.dianping.com/shop/FU8Gnkledt9y1i4z/review_all稍微观察一下,可以发现页面的地址、电话和评论信息都被加密了,对应的字体位置存在一些特殊占位符。留意一下,<bb class="
2020-05-22 16:35:19
1097
3
原创 异步方案——RabbitMQ+Celery
异步方案——RabbitMQ+Celery1、RabbitMQ介绍和使用1.1、生产者消费者设计模式最常用的解耦方式之一,寻找中间人(broker)搭桥,保证两个业务没有直接关联。生产者生成消息,缓存到消息队列中,消费者读取消息队列中的消息并执行。1.2. RabbitMQ介绍消息队列是消息在传输的过程中保存消息的容器。现在主流消息队列有:RabbitMQ、ActiveMQ、...
2020-04-14 17:32:33
990
5
原创 python爬虫中的去重处理
python爬虫中的去重处理爬虫进阶课程笔记。1、去重应用场景以及基本原理1.1、 爬虫中什么业务需要使用去重防止发出重复的请求防止存储重复的数据1.2、去重实现的基本原理根据给定的判断依据和给定的去重容器,将原始数据逐一进行判断,判断去重容器中是否有该数据。如果没有那就把该数据对应的判断依据添加去重容器中,同时标记该数据是不重复数据;如果有就不添加,同时标记该数据是重复数据。...
2020-04-10 15:36:25
982
原创 利用PyCharm+Docker搭建本地爬虫运行环境
利用PyCharm+Docker搭建本地爬虫运行环境本地环境:windows10服务器:虚拟机环境centos7docker版本:19.03.8规范一下:本地项目的路径:F:\Workspace\docker_works服务器(虚拟机)项目的路径:/home/docker_worksdocker容器的项目的路径:/opt/projectPyCharm中配置Docker环...
2020-04-08 22:21:12
873
原创 docker出现pip无法安装软件包
docker出现pip无法安装软件包说明RUN pip install -r requirements.txt收到错误Step 3 : RUN pip install -r requirements.txt ---> Running in fe0b84217ad1Collecting blinker==1.3 (from -r requirements.txt (line 1)...
2020-04-08 16:18:32
3531
原创 centos7上安装docker
centos7上安装docker原文:https://www.cnblogs.com/yufeng218/p/8370670.html为了防止失效,修改整理一下,设置阿里云镜像加速。安装1、验证环境Docker 要求 CentOS 系统的内核版本高于 3.10 ,查看本页面的前提条件来验证你的CentOS 版本是否支持 Docker 。uname -r2、更新包使用 root 权...
2020-04-08 16:16:51
223
原创 某东全网爬虫——scrapy_redis分布式
某东全网爬虫——scrapy_redis分布式爬取京东的商品信息,从外层的分类,一步步深入获取商品的详情页信息。环境:Python3.7需求:1、首页的分类信息:各级分类的名称和URL2、商品信息:商品名称, 商品价格, 商品评论数量, 商品店铺, 商品促销, 商品选项, 商品图片等等技术选择:由于全网爬虫, 抓取页面非常多, 为了提高抓的速度, 选择使用scrapy框架 + scr...
2020-03-13 15:54:48
584
原创 ElasticSearch+Django打造个人爬虫搜索引擎
ElasticSearch+Django打造个人爬虫搜索引擎学习至慕课课程利用ElasticSearch数据库,Python的Django框架,配合scrapy爬虫,打造属于自己的搜索引擎。Windows10本地运行都OK,docker服务器环境配置到一半发现Java运行内存不够了。。留下了贫穷的泪水。。环境配置Java和nodejs以及redis安装安装教程很多,动动手百度一下就有,...
2020-03-01 15:44:52
4071
原创 多台服务器文件实时同步 rsync+inotify
多台服务器文件实时同步 rsync+inotify前言当线上服务器有多台并且又没有运维的时候,传输文件就成了一件非常麻烦的事儿,每次传代码都需要登录多台服务器,很容易就漏传了文件,这时候就需要一个自动化的文件同步工具了。虚拟机服务端:192.168.146.103虚拟机客户端1:192.168.146.102虚拟机客户端2:192.168.146.104系统:centos6.5关于r...
2019-12-10 11:24:52
1176
原创 机器学习笔记(二)——Numpy
机器学习笔记(二)——Numpy介绍Numpy(Numerical Python)是一个开源的Python科学计算库,用于快速处理任意维度的数组。Numpy支持常见的数组和矩阵操作。对于同样的数值计算任务,使用Numpy比直接使用Python要简洁的多。Numpy使用ndarray对象来处理多维数组,该对象是一个快速而灵活的大数据容器。意义ndarray与Python原生list运算效...
2019-11-01 09:48:05
498
原创 机器学习笔记(一)——基础环境
机器学习笔记(一)——基础环境前言机器学习基础阶段会用到Matplotlib、Numpy、Pandas等库,为了方便可以统一安装Anacond,利用Jupyter Notebook来学习。Anacond介绍Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。 因为包含了大量的科学包,Anaconda 的下载文件比较大(约 5...
2019-11-01 09:46:33
199
原创 MySQL快速插入亿级数据
MySQL快速插入亿级数据前言通常我们会有这样的需求:构造数据,大批量插入数据库,以供后续处理。如果是几万几十万的数据那还好说,但如果是上千万上亿的数据,那么我们对速度的追求就更加迫切。这里我们利用Python来操作MySQL(或者PostgreSQL),采取多进程多协程的方式,实现大批量数据快速插入。数据库配置# 查看bulk_insert_buffer_size大小,默认是8MSH...
2019-10-18 17:31:37
2905
原创 centos7配置LEMP环境(PHP、nginx、MySQL)
centos7配置LEMP环境(PHP、nginx、MySQL)前言系统环境(centos7)$ cat /etc/centos-releaseCentOS Linux release 7.6.1810 (Core)一、安装PHP71.删除旧版本yum remove php*2.添加 yum 源rpm -Uvh https://dl.fedoraproject.org/pub...
2019-08-01 10:21:30
716
原创 基于selenium的拉勾网职位信息爬取
基于selenium的拉勾网职位信息爬取拉勾网职位信息爬取,采用selenium自动化爬取。做一些简单的分析。运行环境1、python3.62、主要包:selenium、pymongo3、mongodb数据库主要代码由于很简单,下面直接放上爬虫代码。# coding=utf-8from selenium import webdriverfrom selenium.webdri...
2019-07-10 17:55:01
391
原创 模拟登录淘宝--Python
淘宝–模拟登录使用pyppeteer模拟登录淘宝,获取cookie。代码# -*- coding: utf-8 -*-import asynciofrom pyppeteer import launchimport timefrom retry import retry # 设置重试次数用的count = 1async def main(username, p...
2019-06-24 09:55:22
1470
原创 centos7安装pgsql10并自定义数据存储路径
centos7安装pgsql10并自定义数据存储路径默认情况下,在CentOS 7上,PostgreSQL 10数据目录位于/var/lib/pgsql/10/data中。但是一旦数据量多的话,我们就需要为服务器添加硬盘来存储数据,同时要把pgsql默认的存储位置改为我们挂载的路径。这时我们就要防范于未然,在安装PostgreSQL数据库的时候就要把存储路径更改到一个合适的地方。1、安装P...
2019-06-24 09:29:04
3242
1
空空如也
Django项目用Nginx部署上线之后,出现图片加载404错误
2018-08-25
Nginx错误:页面出现500
2018-08-25
用Nginx部署时,python收集静态文件时出现编码问题
2018-08-24
markdown的格式问题:后台预览是正确,发表后有问题
2018-08-19
TA创建的收藏夹 TA关注的收藏夹
TA关注的人