
Python
Refrain__WG
这个作者很懒,什么都没留下…
展开
-
Python 写入excel 使用windows打开乱码问题解决方案 utf-8-sig
将数据写入csv文件时,在windows电脑中打开使用乱码错行,mac电脑打开没有任何问题。所以问题应该是编码不同导致的。文本中包含了中文、表情字符集等,无论使用 utf-8 还是 gkb 编码都有问题。最终使用 utf-8-sig 编码完美解决问题。with open(file=file, mode=mode, encoding='utf-8-sig', newline='', errors='ignore') as f: f.write(datas)案例:将8W...原创 2021-02-02 16:07:07 · 2440 阅读 · 3 评论 -
Python 正则替换忽略大小写 re.sub()
re.sub('需要替换字符', '用于替换的字符', '需要替换的文本', flags=re.I)import re# 正则替换 不区分大小写re.sub('world', 'Python', 'world I love World.', flags=re.I)# 输出结果'Python I love Python.'原创 2021-01-28 15:49:07 · 3440 阅读 · 0 评论 -
[twitter spider] Python 使用推特开发者账号应用+tweepy api,采集获取推特数据
# 申请 twitter 开发者帐号 & 应用 tokenconsumer_key = "b5n...W1c"consumer_secret = "RGOGO...rbGvh"access_token = "10177...9Gwc5"access_token_secret = "0ugoL...WsgxW"# 填写twitter提供的开发Key和secret + 提交你的Key和secretauth = tweepy.OAuthHandler(consumer_key, co...原创 2021-01-07 10:37:10 · 2605 阅读 · 0 评论 -
scrapyd 批量清除pending任务
一、问题由于爬虫报错/生产环境更换等原因造成定时的scrapy任务队列pending 等待的太多(通过http://127.0.0.1:6800/listjobs.json?project=myproject查询到 pending 的爬虫队列竟然有600+....)二、解决方案进入 用户目录下-->dbs 目录,删除 pending 的scrapy项目db文件即可因为 dbs 目录下存储着项目数据(包括爬虫任务队列)如下图(scrapy项目为MyToken, 此...原创 2020-12-28 09:54:24 · 1412 阅读 · 1 评论 -
Docker Ubuntu pip install lxml 报错:error: command ‘x86_64-linux-gnu-gcc‘ failed with exit status 1
一、报错描述docker 中 使用 pip install lxml, 报错:error: command 'x86_64-linux-gnu-gcc' failed with exit status 1报错图如下:二、解决方案在构建Docker中,使用apt-get install python3-lxml 代替 pip install lxml,可以正常安装(解决安装依赖报错问题)apt-get install python3-lxml参考文章:https://...原创 2020-12-07 11:36:26 · 622 阅读 · 0 评论 -
ERROR: command ‘x86_64-linux-gnu-gcc‘ failed with exit status 1 (ubuntu docker 安装 xxtea-py模块)
参考文章:https://stackoverflow.com/questions/26053982/setup-script-exited-with-error-command-x86-64-linux-gnu-gcc-failed-with-exit/35164888原创 2020-10-14 10:01:38 · 913 阅读 · 0 评论 -
pip install ... ERROR: UnicodeDecodeError: ‘gbk‘ codec can‘t decode/ python setup.py egg_info Check
1. pip install 安装包报错如下ERROR: UnicodeDecodeError: 'gbk' codec can't decode/ python setup.py egg_info Check(base) C:\Users\user>pip download igramscraperCollecting igramscraper Using cached igramscraper-0.3.5.tar.gz (24 kB) ERROR: Command erro原创 2020-09-30 17:25:57 · 1361 阅读 · 0 评论 -
自测 python 翻译的几种方法 (谷歌/百度/有道翻译)
前言:工作需要,翻译的文本经常带有 emoji 表情。1. 谷歌翻译( translate& googletranspython库)优点:方便,简单缺点:需要翻墙,translate 库有次数限制,googletrans 库不能翻译带有 emoji 表情的文本2. 百度翻译注册百度翻译开发者帐号,申请 appID & 密码, 免费 200万字符...原创 2020-09-17 21:04:43 · 1722 阅读 · 0 评论 -
win10系统环境下scrapy出现的问题及解决办法
1. 报错:ModuleNotFoundError: No module named 'win32api'原因:这是因为Python没有自带访问windows系统API的库的,方法:需要下载第三方库 pypiwin32,即 pip install pypiwin32 . 2. 中文输出乱码原因:scrapy m=默认是 utf-8编码,windows系统默认 gbk编码。...原创 2018-12-17 14:41:05 · 540 阅读 · 0 评论 -
scrapy telnet 监测爬虫运行和性能问题
1. 安装 telnetMac 系统: brew install telnet其他 系统:略2. 运行scrapy爬虫scrapy crawl your_spider3. telnet 监测爬虫运行telnet localhost 6023 est ( ): 查看爬虫引擎各组件的运行状态 p(stats.get_stats()) :查看爬虫已经运行的各项指标...原创 2019-01-08 14:34:33 · 1848 阅读 · 1 评论 -
Python 数字 和 字符串 之间的对应转换: chr(int) & ord(str)
ord(str) --> 将字符串 转换成对应的 数字 chr(int) --> 将 数字 转换成对应的 字符串 ----- END -----原创 2019-01-08 12:15:11 · 2992 阅读 · 0 评论 -
numpy 学习笔记
1.简介Numpy(Numerical Python)是一个开源的Python科学计算库,用于快速处理任意维度的数组。Numpy支持常见的数组和矩阵操作。对于同样的数值计算任务,使用Numpy比直接使用Python要简洁的多。Numpy使用ndarray对象来处理多维数组,该对象是一个快速而灵活的大数据容器。Numpy专门针对ndarray的操作和运算进行了设计,所以数组的存储效率和输...原创 2019-03-18 13:46:43 · 257 阅读 · 0 评论 -
机器学习 -- 学习笔记
一. 机器学习概述1. 机器学习的定义机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。2. 机器学习与人工智能、深度学习3. 机器学习的应用场景渗透到了各个行业领域当中。医疗、航空、教育、物流、电商等等领域的各种场景4. 机器学习算法分类5. 机器学习开发流程6. 学习框架和资料介绍...原创 2019-04-17 11:36:48 · 209 阅读 · 0 评论 -
scrapyd 的安装和启动 (基于Python环境)
1.安装pip install scrapyd2. 修改配置文件--允许外部访问查找scarpyd的配置文件: find / -name default_scrapyd.conf打开配置文件: vi default_scrapyd.conf修改文件保存退出: 将 bind_address=127.0.0.1 --> ...原创 2019-03-04 16:12:53 · 846 阅读 · 0 评论 -
pandas 学习笔记
Pandas 简介优点:读取文件方便 ; 封装了Matplotlib、Numpy的画图和计算1. pandas 基本使用# 创建一个符合正态分布的10个股票5天的涨跌幅数据import pandas as pdimport numpy as npstock_change = np.random.normal(0, 1, (10, 5))stock_chan...原创 2019-03-28 01:12:25 · 256 阅读 · 0 评论 -
python 判断区分字符串是否都是英文/中文
1. 判断 是否全是 英文b = 'bilibili站'b.isalpha() # 中英混合不适用# Trueb.encode('utf-8').isalpha()# Falseb.encode('utf-8')# b'bilibili\xe7\xab\x99'2. 判断 是否全是 中文word_1 = '如何再飘摇'res = Truefor...原创 2019-04-11 17:27:47 · 37150 阅读 · 2 评论 -
Elasticsearch(三) Python 使用 elasticsearch 的基本操作
参考文章:https://cuiqingcai.com/6214.html一. python 安装 elasticsearch标准库1. pip install elasticsearch2. 中文分词插件: elasticsearch默认是英文分词器,所以我们需要安装一个中文分词插件elasticsearch-analysis-ik (注意和elasticse...原创 2019-04-11 17:48:33 · 13387 阅读 · 0 评论 -
Centos Linux系统 安装 python3 (Anacada)
1. 下载 Anaconda/Minconda 安装包官网下载太慢。建议选择 国内镜像。# Anaconda & Minconda 二选一# Anacondawget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.0.1-Linux-x86_64.sh# Mincondawge...原创 2019-07-17 13:57:34 · 530 阅读 · 0 评论 -
[weibo spider] 微博 id 和 mid 互相转换 Python
参考资料:https://www.cnblogs.com/qiernonstop/p/3634354.html分析思路:实际代码:ALPHABET = "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"def base62_encode(num, alphabet=ALPHABET): ...原创 2020-09-17 21:07:31 · 1080 阅读 · 0 评论 -
Python Hash分表
1. 创建数据表(10张分表为例)创建 10 张分表:eth_special_addr_trx_0,eth_special_addr_trx_1,......, eth_special_addr_trx_9 # 创建 10 个Hash分表 for i in range(10): sql_create_table = ''' ...原创 2019-07-22 11:25:17 · 971 阅读 · 1 评论 -
Python Flask/Django项目 -- 配置虚拟环境
Python Flask/Django项目 -- 配置虚拟环境 前言:为什么要搭建虚拟环境? 如果在一台电脑上, 想开发多个不同的项目, 需要用到同一个包的不同版本, 如果使用命令, 在同一个目录下安装或者更新, 新版本会覆盖以前的版本, 其它的项目就无法运行了! 虚拟环境可以搭建独立的python运行环境, 使得单个项目的运行环境与其它项目互不影响。(Ubu...原创 2018-07-22 09:23:16 · 451 阅读 · 0 评论 -
python 操作 selenium 详解
页面加载等待 一. 隐式等待Selenium 没有在 DOM 中找到节点,将继续等待,超出设定时间后,则抛出找不到节点的异常。from selenium import webdriverbrowser = webdriver.Chrome()# 设置 隐式等待browser.implicitly_wait (10)browser.get(’https://www...原创 2018-12-17 14:24:10 · 398 阅读 · 0 评论 -
pymysql.err.InternalError: (1366, "Incorrect string value: ...)
原因:由于建表的时候没有指定数据库字符集, 保存中文的时候就会报错:pymysql.err.InternalError: (1366, ...)解决方法:mysql>ALTER TABLE your_table CONVERT TO CHARACTER SET utf8 COLLATE utf8_general_ci; ...原创 2019-02-27 11:38:43 · 3152 阅读 · 0 评论 -
Python Django框架--添加支付宝支付功能
Python Django框架--添加支付宝支付功能 支付宝没有提供Python SDK。生成预付订单需要使用SHA1withRSA签名,签名的生成比较麻烦容易出错。这里提供了一个简单的库,希望能够简化一些Python开发的流程。 安装 & 开发文档说明python对接支付宝SDK安装:pip install python-alipay-sdk --upgrade...原创 2018-08-16 09:37:51 · 1192 阅读 · 0 评论 -
Python 中 json 字符串 和 dict字典的互相转换
Python 中 json 字符串 和 dict字典的互相转换 pickle模块是python的标准模块,提供了对于python数据的序列化操作,可以将数据转换为bytes类型,其序列化速度比json模块要高。pickle.dumps() :将python数据序列化为bytes类型 pickle.loads() : 将bytes类型数据反序列化为python的数...原创 2018-08-08 18:03:40 · 576 阅读 · 0 评论 -
Python pip安装拓展包--网络超时/Read timed out问题
pip安装拓展包--网络超时/Read timed out问题 解决方案:切换镜像源(墙皮太厚) 在后面加上: -i https://pypi.douban.com/simple example: pip install mutagen -i https://pypi.douban.com/simple -...原创 2018-08-07 21:28:32 · 439 阅读 · 0 评论 -
Python Flask & Django框架中配置logging日志文件
一. Python 在Flask框架中日志文件的配置 一般在项目的初始化文件__init__.py 或 Config.py文件中进行配置注意:需要手动在项目文件目录下创建logs包, 用于保存日志文件,否则会报错。def log_file(LEVEL): """记录日志内容""" # 设置日志的记录等级 logging.basicConfig(level=L...原创 2018-08-07 09:39:56 · 1215 阅读 · 0 评论 -
Python Flask框架开发 -- 常用扩展包
Flask框架简介 Flask诞生于2010年,是Armin ronacher(人名)用 Python 语言基于 Werkzeug 工具箱编写的轻量级Web开发框架。 Flask 本身相当于一个内核,其他几乎所有的功能都要用到扩展(邮件扩展Flask-Mail,用户认证Flask-Login,数据库Flask-SQLAlchemy),都需要用第三方的扩展来实现。比如可以用...原创 2018-07-21 23:13:57 · 1158 阅读 · 0 评论 -
Python Flask框架@manager.option的使用
Python Flask框架@manager.option的使用在python中使用Flask框架开发项目时,会用到Flask_script扩展包来管理程序,可以使其在终端中使用指令操作程序。 manager的作用:在终端可以使用指令来操作程序 option装饰后的作用:可以传递参数 使用场景:创建一些敏感数据(如后台管理员),批量添加测试数据等等... 终端中操作指令 : pyth...原创 2018-07-18 19:20:42 · 1375 阅读 · 0 评论 -
Python装饰器中的@wraps的作用和使用
Python 装饰器中的@wraps的作用: 装饰器的作用: 在不改变原有功能代码的基础上,添加额外的功能,如用户验证等 @wraps(view_func)的作用: 不改变使用装饰器原有函数的结构(如__name__, __doc__) 不使用wraps可能出现的ERROR: view_func...endpoint...map...使用方法...原创 2018-07-12 11:59:45 · 14834 阅读 · 1 评论 -
PyCharm 常用快捷键
PyCharm 常用快捷键 ---掌握开发中比较常用的快捷键,有时候可以帮助我们事半功倍。1.Ctrl + Shift + A : 万能命令行可以在万能命令行内输入各种指令: settings : 进入设置选项python file: 会新建一个新的python文件show in file: 会打开当前文件所在的文件夹.......2.Shift + Enter : 向下插入新的一行3.Alt...原创 2018-07-06 15:00:24 · 1053 阅读 · 0 评论 -
Python爬虫--实现图片验证码全自动输入
爬虫--实现图片验证码全自动输入爬取网站:豆瓣(https://accounts.douban.com/login)爬虫思路:1. 使用selenium, 对图片验证码进行截图操作, 2. 接入打码平台--云打码,传输图片,返回验证码 一. 爬虫代码如下:import timefrom selenium import webdriver...原创 2018-08-28 21:39:44 · 6719 阅读 · 0 评论 -
BUG:pymongo.errors.DuplicateKeyError: E11000 duplicate key error collection的原因和解决方案
BUG:pymongo.errors.DuplicateKeyError: E11000 duplicate key error collection的原因和解决方案一. BUG描述:使用Scrapy把数据添加到mongodb时,无法添加,抛出异常如下:pymongo.errors.DuplicateKeyError: E11000 duplicate key error collec...原创 2018-09-01 16:10:55 · 10702 阅读 · 1 评论 -
图片文字识别:Tesseract OCR库在Python中基本使用
图片识别:Tesseract OCR库在Python中基本使用 一.Tesseract - Xmind的笔记 二. 代码案例: 基本使用代码 import pytesseractfrom PIL import Image# 创建图片对象image = Image.open('test_image.png')# 使用tesseract识别图片中的文...原创 2018-09-05 09:38:01 · 471 阅读 · 0 评论 -
pycharm 常用设置设置
1.自动加冒号 换行 complete current statement : ctrl+shift+enter(与虚拟机冲突) --> 修改为 ctrl+shift+:2. 保存成模板: ctrl+shift+L( live Template)3. 设置 PyCharm 注释字体颜色 setting --> fon...原创 2018-11-16 10:38:00 · 929 阅读 · 0 评论 -
scrapyd 常用部署命令 & 远程监控 & 爬虫脚本
一. 部署&运行deploy: 部署scrapy爬虫程序# scrapyd-deploy 部署服务器名 -p 项目名称scrapyd-deploy ubuntu -p douyurun : 运行#curl http://localhost:6800/schedule.json -d project=project_name -d spider=spider_nam...原创 2018-11-08 12:06:20 · 749 阅读 · 0 评论 -
阿里云服务器 非root权限 创建基于python的虚拟环境
阿里云 服务器 非root权限 创建虚拟环境 (添加 --user 即可)# 安装虚拟环境-virtualenvpip install --user virtualenv# 创建自己的虚拟环境-scrapy_envvirtualenv scrapy_env# 进入/激活虚拟环境source scrapy_env/bin/activate# 退出虚拟环境deactiva...原创 2018-10-12 17:09:40 · 726 阅读 · 0 评论 -
Redis Publish 频道订阅详解
Redis Publish 频道功能订阅详解参考来源:(菜鸟教程)http://www.runoob.com/redis/redis-pub-sub.html 一. 概念Redis 发布订阅(pub/sub)是一种 消息通信模式:发送者(pub)发送消息,订阅者(sub)接收消息。Redis 客户端可以订阅任意数量的频道。当有新消息通过 PUBLISH 命令发送给频道 ch...原创 2018-10-04 22:28:00 · 2476 阅读 · 0 评论 -
python 中文转Unicode编码 & Unicode编码转中文
中文转Unicode编码:text.encode("unicode_escape")exp:# 中文转Unicode编码text = "中国" res = text.encode("unicode_escape")# 输出结果res = b'\\u4e2d\\u56fd'Unicode编码转中文:u.decode("unicode_escape")...原创 2019-05-28 13:32:50 · 35521 阅读 · 7 评论 -
Matplotlib 数据可视化-基本使用教程
一. Matplotlib 基本概念Matplotlib是python的一个数据可视化工具库。特点:专门用于开发2D图表(包括3D图表), 操作简单。可视化是在整个数据挖掘的关键辅助工具,可以清晰的理解数据,从而调整我们的分析方法。二. Matplotlib三层结构三. Matplotlib 库的安装 和 使用环境搭建# maltplotlib库的安装pip ...原创 2018-09-17 19:22:31 · 6107 阅读 · 1 评论