自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小小马

这是一个不知道名字的人

  • 博客(21)
  • 收藏
  • 关注

原创 python字典--在key上使用正则表达式

首先感谢 https://www.icode9.com/content-1-290270.html最近在做爬虫的时候遇到一个问题:在抓取到的网页上面有一些反爬措施,抓取到的网页源码部分数据如下:<td width="308px"><div title="139798.5564万美$元">139798.5564万美$元</div>经过测试,中间的符号是随机的。而我们的需求要求把货币单位转成字母缩写,虽然问题不大,可以通过replace的方式替换,但是如果符号种类

2020-08-05 15:06:55 4460

原创 python利用pyMuPdf进行pdf压缩

import fitzimport osfrom PIL import Imagefrom glob import globfrom time import timefrom shutil import rmtreeclass PdfEdit: def __init__(self, f_type='jpg'): self.f_type = f_type ...

2020-05-07 19:40:49 4754

原创 python PIL 修改图片尺寸、格式、压缩

修改宽和高img = Image.open('picture.jpg')img = img.convert('RGB')resize_img = img.resize((x, y), Image.ANTIALIAS) # x, y 为压缩后的宽和高压缩和改格式img = Image.open('picture.jpg')img.save('picture.png', qua...

2020-04-29 11:34:16 3162 1

原创 python PIL、opencv, 二进制、base64 四种图片格式转换

二进制转PIL格式from io import BytesIOfrom PIL import Imagewith open('picture.jpg', 'rb') as f: im = f.read()p_im = Image.open(BytesIO(im)) # BytesIO实现了在内存中读写Bytesprint(p_im) # 输出PIL图片对象## 输出...

2020-04-29 09:51:46 2909

原创 jupyter notebook使用的一些小技巧

设置默认路径:打开cmd 输入jupyter notebook --generate-config,回车会提示在用户文件夹下创建了一个py文件C:\Users\用户名>jupyter notebook --generate-configWriting default config to: C:\Users\用户名\.jupyter\jupyter_notebook_config...

2020-03-31 19:34:16 356

原创 自己写的手机游戏脚本

由于过年时间特殊情况,在家特别无聊,就写了一个手机游戏的脚本脚本所属游戏-战舰少女功能很简单● 自动刷活动材料● 自动收获远征奖励● 自动出征升级● 自动分解船只但是毕竟只是自己用的,选地图功能没有写,如果要用的话,还是需要自己先选好图,然后打开脚本。逻辑有很多地方也需要改善。姑且这算是个砖吧,我也算是抛砖引玉,后续如果有哪位大神有兴趣的话,可以自己完善代码(别自己脸上贴金了,大佬...

2020-03-09 11:46:27 13168 15

原创 开发过程中一些很小但比较重要的问题

1. 路径问题这两天用到配置文件,我把一些常用的数据放到了config.ini文件里,以前都是把路径写死的,但是有个大问题,在windows和linux里面的路径表达方式也不一样,这样容易造成不兼容的问题经过查询资料,发现了一个很好的解决方法,一般路径路径问题都可以这样来解决:比如,我的配置文件路径是这样的: - 根目录 + 其他文件夹 + a文件夹 + b文件夹 ...

2019-12-12 10:41:02 140

原创 pandas遇到的坑总结

这只是一个笔记pandas.to_sql()只为记录自己在用pandas的时候遇到的一些坑pandas.to_sql()pandas的to_sql()方法可以向数据库中插入数据,可以用非常少量的代码代码来实现。 def to_sql( self, name, con, schema=None, if_ex...

2019-12-03 13:15:39 757

原创 豆瓣滑块登录

from selenium import webdriver# 鼠标动作from selenium.webdriver.common.action_chains import ActionChainsimport time def get_tracks(distance): """ distance: 传入的总距离 return : 存放每0.3秒移动的距离 ...

2019-11-01 19:27:19 813

转载 requests高级用法

本文源自requests文档](https://requests.kennethreitz.org//zh_CN/latest/user/advanced.html#advanced)

2019-10-28 22:23:51 885

原创 58同城租房抓取

前两天,有个朋友让我帮他搞个爬虫,是58同城的。本以为很简单的事情,没想到,他们竟然用自己的一套字体。抓取出来的都是乱码图片就不放了,去58同城看看就知道。搞了大半天,查资料,找规律,还真给弄出来了。然后得意地给朋友看,谁知他来了一句,不是抓租房,是抓简历的!好吧。我重新搞一搞。不过还是先把这个记下来,以后也可以做个参考。加密的就不说了,去58一看就知道是什么回事。直接入正题:用到的工具:(都...

2019-09-27 19:05:43 2229 4

原创 爬虫中图片验证码的处理

tesserct-ocr是由Google维护的开源OCR底层识别库,可以把图片上的文字转换成字符串.而pytesseract是对tesseract-ocr做的一层Python API封装.可以用pytesseract来完成对图片验证码的识别.Ubuntu安装 tesseract-ocrsudo apt-get install tesseract-ocrwindows安装 tesseract...

2019-08-21 15:21:19 1244

原创 scrapy中cookie的使用

后两种方法,传入的cookies类型必需是字典方法一、修改 settings.py 文件1、COOKIES_ENABLED = False 取消注释2、DEFAULT_REQUEST_HEADERS = {}里面添加Cookie方法二、爬虫文件def start_requests(self): yield scrapy.Request(url=url,cookies={},cal...

2019-08-21 14:53:21 722

原创 scrapy分布式爬虫设置

scrapy本身不支持分布式爬虫,但是可以通过第三方模块来达到分布式目的.需要准备的环境:redis数据库: 版本:2.8以上python环境: 2.7或者3.4版本以上安装scrapy-redis模块: (scrapy版本需要1.1以上)方式一在本地写好爬虫项目以后,只需要在scrapy的settings里设置以下几项即可:1.重新指定调度器: 启用Redis调度存储请求队列SC...

2019-08-21 13:31:49 281

原创 scrapy中使用User-Agent

fake_useragent模块可以随机生成User-Agent, 我们不用再自己去收集User-Agent,用法也很简单首先导入模块:from fake_useragent import UserAgent实例化对象然后调用就可以了(这个模块的UserAgent多到不能想象)ua = UserAgent()>>> ua.random'Mozilla/5.0 (W...

2019-08-20 16:06:13 1125

原创 scrapy中使用ImagesPipeline下载图片的方法

scrapy 已经写好了图片下载的方法,只需要调用就可以了.# scapy 下载图片的源代码def get_media_requests(self, item, info): return [Request(x) for x in item.get(self.images_urls_field, [])]这个方法很简单,重写此方法,就可以下载需要的图片.需要导入两个模块from s...

2019-08-20 15:44:14 725

原创 python下selenium+chromedriver常用操作

导入模块from selenium import webdriver创建浏览器对象browser = webdriver.Firefox()get()方法会等待页面加载完全后才会继续执行下面语句browser.get(‘https://www.jd.com/’)查找节点node = browser.find_element_by_xpath(’’)node.send_keys(’’...

2019-08-19 09:27:37 1635

原创 京东华为P20手机评论数据抓取

用selenium 和chromedriver抓取京东手机P20的评论信息import timefrom selenium import webdriverimport csvfrom lxml import etreeclass JDSpider: def __init__(self): self.base_url = 'https://www.jd.com...

2019-08-15 21:12:49 474

原创 应用多线程抓取小米应用商店的例子

import requestsfrom fake_useragent import UserAgentfrom threading import Threadfrom queue import Queueimport timefrom lxml import etreeimport pymysqlimport randomfrom threading import Lockimp...

2019-08-15 17:29:48 713

原创 爬虫中session应用的一个简单实例: 利用requests的session功能登录人人网

import requestsfrom lxml import etreefrom fake_useragent import UserAgentclass RenRenSpider(object):def init(self):self.post_url = ‘http://www.renren.com/PLogin.do’self.get_url = ‘http://www.ren...

2019-08-15 17:23:36 1039

原创 使用pymysql简单创建mysql数据库

使用pymysql简单创建mysql数据库使用pymysql简单创建mysql数据库最近写爬虫时候, 因为一直要手动创建数据库,嫌麻烦,就自己写了一个简单的创建mysql数据库代码."""代码的作用是简单创建一个数据库(其实就是自己想偷懒)只需要把库名,表名,字段名修改或添加就可以了db_name 库名tb_name 表名columns 字段名元组中第一个值为字段名,第二个值为字...

2019-08-12 19:15:26 5107

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除