- 博客(24)
- 收藏
- 关注

原创 爬虫常用的user_agent
我多年收集的USER_AGENT,都整理正列表了,几百个拿去直接用!有些是有点年头了,随机选就行了USER_AGENT = [‘Mozilla/5.0 (iPhone; U; CPU like Mac OS X; en) AppleWebKit/420+ (KHTML, like Gecko) Version/3.0 Mobile/1C28 Safari/419.3’,‘Mozilla/5...
2018-10-20 11:16:58
1026
原创 python重新学习笔记
1.队列的使用collections.queue在处理有限数量的队列时,可大显身手。d = queue(maxlen=1) # maxlen参数可选,不填时队列无限大eg:d.append(1) # 尾添加d.appendleft(2) # 头添加d.pop() # 删除尾元素d.popleft() # 删除头元素...
2021-02-20 11:20:48
172
原创 python管理神器--conda
Python2和Python3之间存在较大的差异,并且还会共存很久。我们在使用的时候,可能会遇到不同的Python版本问题或者是Python工作环境切换问题,因此我们需要一个环境管理工具,而我要推荐的是Conda!CondaConda是一个开源的软件包管理系统和环境管理系统,用于安装多个版本的软件包及其依赖关系,并在它们之间轻松切换,目前Conda为最流行的Python环境管理工具!适用于Linux,OS X和Windows,也可以打包和分发其他软件。通常我们用pip来管理Python包,而Conda
2020-09-09 22:00:48
239
原创 7z 压缩与解压缩
1、解压缩7z文件7za x *.7z -r -o./testx 代表解压缩文件,并且是按原始目录树解压-r 表示递归解压缩所有的子文件夹-o 是指定解压到的目录,-o后没有空格的2、压缩文件7za a -t7z -r *.7z ./7za a -t7z /opt/svt9/1/data/test/*.7z * -mx=9a 代表添加文件/文件夹到压缩包-t 是指定压缩类型,这里定为7z,可不指定,因为7za默认压缩类型就是7z。-r 表示递归所有的子文件夹...
2020-06-15 11:13:58
1121
原创 docker&k8s常用命令
查看docker进程docker ps |grep bpcustomconfig重启docker中的微服务:containerId=docker ps|grep easyinstalltoolservice |awk '{print $1}';docker exec -it -u mateinfo ${containerId} bashcd /opt/mateinfo/app/bin && sh app-admin.sh restart进入docker:iesdata..
2020-06-15 10:54:26
449
原创 shell中的expect实现远程登录或者传文件
场景为:一台主机上执行脚本,修改ip.txt文件中所有主机的/etc/ssh/sshd_config文件内容changeme_sshdconfig.sh#! /bin/bashCURRENT_PATH=$(cd `dirname $0`; pwd)LOG_PATH=$CURRENT_PATH/logs/upgradeecho "please input paas password:"read -s paaspwdecho "please input root password:"read
2020-06-01 16:33:58
3011
原创 linux文件权限详解问题举例(1)
具体问题:xxx证书权限不正确预期结果为600或以下,当前是500预期结果为600或以下,表示600或者400都达标将r-x(500)修改为rw-(600)或者r–(400)比600权限小的为400,取消可写权限
2020-06-01 10:27:55
291
原创 linux运维常用知识
这里写自定义目录标题1.ssh速度特别慢修改文件属组格式化硬盘命令格式化硬盘出现/dev/sdb5 is apparently in use by the system错误删除一个路由linux查看白名单iptables-save && iptables-restore iptables规则保存于还原服务器之间添加互信修改网卡名称常用命令findfgreptailMountUmountDf –h1.ssh速度特别慢将/etc/ssh/sshd_config/的#UseDNS注释去掉,改成
2020-05-29 15:02:49
591
1
原创 mysql进阶知识
mysql索引知识:索引的类型可分为:主键索引、唯一索引、普通索引、全文索引根据索引列数可分为:单列索引、组合索引创建索引的方式有两种:ALTER TABLE … 和 CREATE INDEX …显示已创建的索引:SHOW INDEX FROM table_name删除索引:DROP INDEX …几种索引的区别和使用场景:区别:主键索引,列值唯一且不为空(特殊的唯一索引);唯一...
2019-11-11 16:43:26
149
转载 最新版抖音app或者其他app抓包情况分析
从今年初开始抖音更新后,抖音app就无法普通的通过配置fiddler抓包了,经过百度发现原来是用了ssl pinning技术,对ssl pinning技术的了解可以参考:https://www.jianshu.com/p/22b56d977825我只用了安卓端,步骤如下:1.安装夜神模拟器2.打开夜神多开器—>添加模拟器—>全新模拟器-Android5.1.1—>进入模拟器...
2019-10-30 15:00:31
22194
14
原创 记一次nginx+gunicorn使用记录
环境:CentOS Linux release 7.2.1511 (Core)python2.71、安装nginx1.安装nginx依赖yum -y install gcc zlib zlib-devel pcre-devel openssl openssl-devel2.下载nginx压缩包(版本自行修改)wget http://nginx.org/download/nginx-1...
2019-10-30 10:01:15
658
转载 centos使用yum安装报错Error: rpmdb open failed
出错:error: rpmdb: BDB0113 Thread/process 22177/139622672119808 failed: BDB1507 Thread died in Berkeley DB libraryerror: db5 error(-30973) from dbenv->failchk: BDB0087 DB_RUNRECOVERY: Fatal error, ...
2019-10-25 17:19:47
526
原创 linux安装anaconda
1、下载我用的是centos,直接命令我下载的是Python2的版本,其他版本可去清华源找(https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/)wget https://repo.continuum.io/archive/Anaconda2-5.3.0-Linux-x86_64.sh2、安装sh Anaconda2-5.3.0-...
2019-10-14 17:21:34
211
转载 Linux中的screen命令使用
1、简介Screen是一款由GNU计划开发的用于命令行终端切换的自由软件。用户可以通过该软件同时连接多个本地或远程的命令行会话,并在其间自由切换。GNU Screen可以看作是窗口管理器的命令行界面版本。它提供了统一的管理多个会话的界面和相应的功能。在Screen环境下,所有的会话都独立的运行,并拥有各自的编号、输入、输出和窗口缓存。用户可以通过快捷键在不同的窗口下切换,并可以自由的重定向各个...
2019-10-14 10:15:32
216
转载 实用工具网站(搜索/PPT/图片操作...)
1、搜索引擎1.1、秘迹搜索一款无敌有良心、无敌安全的搜索引擎,不会收集私人信息,保护私隐,没有Cookie,并且秘迹搜索聚合了百度、360、Bing、搜狗等搜索结果。网站:https://mijisou.com1.2、小白盘度盘资源搜索的网站,能够搜索电影、电视剧、小说、音乐等资源网站:https://www.xiaobaipan.com2、PPT2.1、优品PPT高品质免...
2019-09-06 09:52:20
1061
转载 python代码后台管理supervisor 使用详解
简介supervisor是用Python开发的一个client/server服务,是Linux/Unix系统下的一个进程管理工具。可以很方便的监听、启动、停止、重启一个或多个进程。用supervisor管理的进程,当一个进程意外被杀死,supervisor监听到进程死后,会自动将它重启,很方便的做到进程自动恢复的功能,不再需要自己写shell脚本来控制。安装yum install super...
2019-09-04 17:01:46
673
原创 python爬虫———多线程threading模块爬取抖音用户信息
爬虫背景:由于原来的数据库中有1.5亿左右的用户id,但是其中有1.2亿的用户资料是不完整的(没有粉丝数量,点赞数量等,算是无用数据),现在老板要求将这些没有资料的用户更新信息,咋办?刚开始的想法是使用主从模式+scrapy爬取,但是写着写着觉得麻烦(写python的都很懒,scrapy还是比较臃肿的),然后突然想到,python中的多线程,处理爬虫这种存在大量io的操作时,多线程是非常有用的...
2019-09-04 10:41:28
5934
4
原创 Given a “flatten” dictionary object, whose keys are dot-separated
最近面试做了这样一个题:'''Given a “flatten” dictionary object, whose keys are dot-separated. For example, { ‘A’: 1, ‘B.A’: 2, ‘B.B’: 3, ‘CC.D.E’: 4, ‘CC.D.F’: 5}. Implement a function in any language to transfo...
2019-08-29 21:23:40
3095
2
转载 常用的crontab命令
1.添加或更新crontab中的命令,进入crontabcrontab -e几个实用的Crontab使用实例每五分钟执行 */5 * * * *每小时执行 0 * * * *每2小时执行 0 */2 * * * (每隔几小时运行的,分钟的0一定要写)每天执行 0 0 * * *每周执行 0 0 * * 0每月执行 0 0 1...
2019-08-05 10:45:17
1141
原创 vim实用命令
在linux里面编程,最好用的编辑器还是vim,以下是我平时用的一些基本命令,比较简单,也是最有用的,也就三十几条命令。这些命令不会使你变成大神,但是基本操作完全够用,只要熟练,也可以称为半神Vi命令:A:插入到行尾a:插入到光标后大写I:插入到行首小写i:插入到光标前yy :复制光标所在这一行,如4yy,就复制了4行P:粘贴dd:删除(剪切)光标这一行, 2dd,删除光标...
2018-10-18 18:14:52
317
1
原创 scrapy + mongodb爬取电影TOP250
无聊想看电影,今天上豆瓣看了一下,顺便爬了点豆瓣电影top250的榜单,并将数据存储到了mongodb中。用到了scrapy + windows + mongodb难点基本没有,也没遇到坑,就是存到mongodb数据库的时候有几步忘了,查了一下,看来要多用数据库才行。废话不多说,直接贴代码。平时遇到的坑昨天那篇博客已经说了,今天特别注意,有时候问题虽小,但是报错也很烦恼 = =…爬虫代码...
2018-10-18 17:38:36
399
原创 scrapy框架实现百度图片爬虫
scrapy框架实现百度图片爬虫这是我个人获取搜索引擎图片的爬虫思路,还有很多待完善的地方此程序的环境为windows + pycharm + python3.6 + scrapy思路:百度图片加载是基于ajax数据加载的,图片的url都藏在后台发送的json文件中,所以需要在开发者模式xhr中,找到对应的json请求,然后构造url发送即可得到返回的json文件,然后用正则表达式提取出图片...
2018-10-17 16:52:12
1070
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人