cnmnui-优快云博客

原创 python字典--在key上使用正则表达式

首先感谢 https://www.icode9.com/content-1-290270.html最近在做爬虫的时候遇到一个问题：在抓取到的网页上面有一些反爬措施，抓取到的网页源码部分数据如下：<td width="308px"><div title="139798.5564万美$元">139798.5564万美$元</div>经过测试，中间的符号是随机的。而我们的需求要求把货币单位转成字母缩写，虽然问题不大，可以通过replace的方式替换，但是如果符号种类

2020-08-05 15:06:55 4549

原创 python利用pyMuPdf进行pdf压缩

import fitzimport osfrom PIL import Imagefrom glob import globfrom time import timefrom shutil import rmtreeclass PdfEdit: def __init__(self, f_type='jpg'): self.f_type = f_type ...

2020-05-07 19:40:49 5002

原创 python PIL 修改图片尺寸、格式、压缩

修改宽和高img = Image.open('picture.jpg')img = img.convert('RGB')resize_img = img.resize((x, y), Image.ANTIALIAS) # x, y 为压缩后的宽和高压缩和改格式img = Image.open('picture.jpg')img.save('picture.png', qua...

2020-04-29 11:34:16 3210 1

原创 python PIL、opencv, 二进制、base64 四种图片格式转换

二进制转PIL格式from io import BytesIOfrom PIL import Imagewith open('picture.jpg', 'rb') as f: im = f.read()p_im = Image.open(BytesIO(im)) # BytesIO实现了在内存中读写Bytesprint(p_im) # 输出PIL图片对象## 输出...

2020-04-29 09:51:46 2994

原创 jupyter notebook使用的一些小技巧

设置默认路径：打开cmd 输入jupyter notebook --generate-config，回车会提示在用户文件夹下创建了一个py文件C:\Users\用户名>jupyter notebook --generate-configWriting default config to: C:\Users\用户名\.jupyter\jupyter_notebook_config...

2020-03-31 19:34:16 392

原创自己写的手机游戏脚本

由于过年时间特殊情况，在家特别无聊，就写了一个手机游戏的脚本脚本所属游戏-战舰少女功能很简单● 自动刷活动材料● 自动收获远征奖励● 自动出征升级● 自动分解船只但是毕竟只是自己用的，选地图功能没有写，如果要用的话，还是需要自己先选好图，然后打开脚本。逻辑有很多地方也需要改善。姑且这算是个砖吧，我也算是抛砖引玉，后续如果有哪位大神有兴趣的话，可以自己完善代码（别自己脸上贴金了，大佬...

2020-03-09 11:46:27 13692 15

原创开发过程中一些很小但比较重要的问题

1. 路径问题这两天用到配置文件，我把一些常用的数据放到了config.ini文件里，以前都是把路径写死的，但是有个大问题，在windows和linux里面的路径表达方式也不一样，这样容易造成不兼容的问题经过查询资料，发现了一个很好的解决方法，一般路径路径问题都可以这样来解决：比如，我的配置文件路径是这样的： - 根目录 + 其他文件夹 + a文件夹 + b文件夹 ...

2019-12-12 10:41:02 165

原创 pandas遇到的坑总结

这只是一个笔记pandas.to_sql()只为记录自己在用pandas的时候遇到的一些坑pandas.to_sql()pandas的to_sql()方法可以向数据库中插入数据，可以用非常少量的代码代码来实现。 def to_sql( self, name, con, schema=None, if_ex...

2019-12-03 13:15:39 815

原创豆瓣滑块登录

from selenium import webdriver# 鼠标动作from selenium.webdriver.common.action_chains import ActionChainsimport time def get_tracks(distance): """ distance: 传入的总距离 return : 存放每0.3秒移动的距离 ...

2019-11-01 19:27:19 856

转载 requests高级用法

本文源自requests文档](https://requests.kennethreitz.org//zh_CN/latest/user/advanced.html#advanced)

2019-10-28 22:23:51 922

原创 58同城租房抓取

前两天，有个朋友让我帮他搞个爬虫，是58同城的。本以为很简单的事情，没想到，他们竟然用自己的一套字体。抓取出来的都是乱码图片就不放了，去58同城看看就知道。搞了大半天，查资料，找规律，还真给弄出来了。然后得意地给朋友看，谁知他来了一句，不是抓租房，是抓简历的！好吧。我重新搞一搞。不过还是先把这个记下来，以后也可以做个参考。加密的就不说了，去58一看就知道是什么回事。直接入正题：用到的工具：（都...

2019-09-27 19:05:43 2288 4

原创爬虫中图片验证码的处理

tesserct-ocr是由Google维护的开源OCR底层识别库,可以把图片上的文字转换成字符串.而pytesseract是对tesseract-ocr做的一层Python API封装.可以用pytesseract来完成对图片验证码的识别.Ubuntu安装 tesseract-ocrsudo apt-get install tesseract-ocrwindows安装 tesseract...

2019-08-21 15:21:19 1289

原创 scrapy中cookie的使用

后两种方法,传入的cookies类型必需是字典方法一、修改 settings.py 文件1、COOKIES_ENABLED = False 取消注释2、DEFAULT_REQUEST_HEADERS = {}里面添加Cookie方法二、爬虫文件def start_requests(self): yield scrapy.Request(url=url,cookies={},cal...

2019-08-21 14:53:21 759

原创 scrapy分布式爬虫设置

scrapy本身不支持分布式爬虫,但是可以通过第三方模块来达到分布式目的.需要准备的环境:redis数据库: 版本:2.8以上python环境: 2.7或者3.4版本以上安装scrapy-redis模块: (scrapy版本需要1.1以上)方式一在本地写好爬虫项目以后,只需要在scrapy的settings里设置以下几项即可:1.重新指定调度器: 启用Redis调度存储请求队列SC...

2019-08-21 13:31:49 310

原创 scrapy中使用User-Agent

fake_useragent模块可以随机生成User-Agent, 我们不用再自己去收集User-Agent,用法也很简单首先导入模块:from fake_useragent import UserAgent实例化对象然后调用就可以了(这个模块的UserAgent多到不能想象)ua = UserAgent()>>> ua.random'Mozilla/5.0 (W...

2019-08-20 16:06:13 1166

原创 scrapy中使用ImagesPipeline下载图片的方法

scrapy 已经写好了图片下载的方法,只需要调用就可以了.# scapy 下载图片的源代码def get_media_requests(self, item, info): return [Request(x) for x in item.get(self.images_urls_field, [])]这个方法很简单,重写此方法,就可以下载需要的图片.需要导入两个模块from s...

2019-08-20 15:44:14 770

原创 python下selenium+chromedriver常用操作

导入模块from selenium import webdriver创建浏览器对象browser = webdriver.Firefox()get()方法会等待页面加载完全后才会继续执行下面语句browser.get(‘https://www.jd.com/’)查找节点node = browser.find_element_by_xpath(’’)node.send_keys(’’...

2019-08-19 09:27:37 1662

原创京东华为P20手机评论数据抓取

用selenium 和chromedriver抓取京东手机P20的评论信息import timefrom selenium import webdriverimport csvfrom lxml import etreeclass JDSpider: def __init__(self): self.base_url = 'https://www.jd.com...

2019-08-15 21:12:49 496

原创应用多线程抓取小米应用商店的例子

import requestsfrom fake_useragent import UserAgentfrom threading import Threadfrom queue import Queueimport timefrom lxml import etreeimport pymysqlimport randomfrom threading import Lockimp...

2019-08-15 17:29:48 734

原创爬虫中session应用的一个简单实例: 利用requests的session功能登录人人网

import requestsfrom lxml import etreefrom fake_useragent import UserAgentclass RenRenSpider(object):def init(self):self.post_url = ‘http://www.renren.com/PLogin.do’self.get_url = ‘http://www.ren...

2019-08-15 17:23:36 1072

原创使用pymysql简单创建mysql数据库

使用pymysql简单创建mysql数据库使用pymysql简单创建mysql数据库最近写爬虫时候, 因为一直要手动创建数据库,嫌麻烦,就自己写了一个简单的创建mysql数据库代码."""代码的作用是简单创建一个数据库(其实就是自己想偷懒)只需要把库名,表名,字段名修改或添加就可以了db_name 库名tb_name 表名columns 字段名元组中第一个值为字段名,第二个值为字...

2019-08-12 19:15:26 5194

小小马