
Python语法相关
文章平均质量分 68
mishidemudong
菜鸟上路,一颗红心,两手准备。
展开
-
pdfplumber是怎么做表格抽取的(一)
pdfplumber是怎么做表格抽取的(一)冰焰虫子兴趣广泛,包含但不限于:coding,NLP,CV,深度学习笔者把自己这篇原本发布在github page上的文章迁移到了这里,原github page网址:https://iceflameworm.github.io/2019/12/02/pdfplumber-table-extraction-1/pdfplumber是一款完全用python开发的pdf解析库,对于线框完全的表格,pdfminer能给出比较好的抽取效果,但是对于线..转载 2020-09-01 09:56:23 · 2033 阅读 · 0 评论 -
einsum初探
Einsum 是干嘛的?使用爱因斯坦求和约定,可以以简单的方式表示许多常见的多维线性代数数组运算。举个栗子:给定两个矩阵A和B,我们想对它们做一些操作,比如 multiply、sum或者transpose。虽然numpy里面有可以直接使用的接口,能够实现这些功能,但是使用enisum可以做的更快、更节省空间。比如:A = np.array([0, 1, 2])B = np.array([[ 0, 1, 2, 3], [ 4, 5, 6, 7],转载 2020-07-03 11:50:30 · 983 阅读 · 0 评论 -
python高并发的解决方案
python高并发的解决方案一.cdn加速简单说就是把静态资源放到别人服务器上全称:Content Delivery Network或Content Ddistribute Network,即内容分发网络基本思路:尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输的更快、更稳定。通过在网络各处放置节点服务器所构成的在现有的互联网基础之上的一层智能虚拟网络,CDN系统能够实时地根据网络流量和各节点的连接、负载状况以及到用户的距离和响应时间等综合信息将用户的请求重新导向转载 2020-06-24 15:59:53 · 1431 阅读 · 0 评论 -
nginx+uwsgi 和nginx+gunicorn区别、如何部署
[线上环境部署Django,nginx+uwsgi 和nginx+gunicorn,这两种方案,应该如何选择?]大家是采用的何种部署方式?第一种,高并发稳定一点我们公司使用的是nginx+gunicorn,主要是方便。性能可以从其他方面优化。随便吧我们用的是nginx supervisor gunicornInstagram由uwsgi转到gunicorn,建议用g...转载 2020-04-26 14:24:57 · 1280 阅读 · 0 评论 -
########优秀事例######python调用echart交互式可视化
pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。用 Echarts 生成的图可视化效果非常棒,为了与 Python 进行对接,方便在 Python 中直接使用数据生成图,我写了这个项目。以下是最新版echart的靓图。当然,pyecharts貌似没有这么齐全。官方文档:http://pyecharts.herokuapp....转载 2019-06-13 16:19:36 · 1370 阅读 · 0 评论 -
flask中获取request的参数的方法
request请求总体分为两类:1.get请求访问时会在地址栏直接显示参数不安全,且参数大小比较小。2.post请求参数不显示在地址栏,一般用户注册、登录都通过post请求完成。flask获取参数方式:request.form.get("key", type=str, default=None) 获取表单数据request.args.get("key") 获取get...转载 2019-06-03 11:19:57 · 3179 阅读 · 0 评论 -
##好好好###python实现RESTful服务(基于flask)
前言上一篇文章讲到如何用java实现RESTful服务,这就来讲讲怎么用python来实现吧,因为要搭建一套java和python互调的服务,两者都不能少啊。对于python的述求呢也是要轻量化,并且能快捷开发,因为我这套服务主要控制逻辑还是在java端,python这块负责一些工具逻辑,比如网页爬取、文字转拼音、图像处理等等,在java端当成工具类来使用,所以轻量和快捷开发就是重点了w...转载 2019-02-26 14:17:51 · 207 阅读 · 0 评论 -
python基础----特性(property)、静态方法(staticmethod)、类方法(classmethod)、__str__的用法
阅读目录一、特性(property) 二、静态方法(staticmethod) 三、类方法(classmethod) ...转载 2018-07-25 16:21:26 · 245 阅读 · 0 评论 -
python:让源码更安全之将py编译成so
python:让源码更安全之将py编译成so应用场景 Python是一种面向对象的解释型计算机程序设计语言,具有丰富和强大的库,使用其开发产品快速高效。 python的解释特性是将py编译为独有的二进制编码pyc文件,然后对pyc中的指令进行解释执行,但是pyc的反编译却非常简单,可直接反编译为源码,当需要将产品发布到外部环境的时候,源码的保护尤为重要.准备工作 环境是可为linux/cen...转载 2018-07-01 22:46:57 · 718 阅读 · 0 评论 -
深入理解 GIL:如何写出高性能及线程安全的 Python 代码
6岁时,我有一个音乐盒。我上紧发条,音乐盒顶上的芭蕾舞女演员就会旋转起来,同时,内部装置发出“一闪一闪亮晶晶,满天都是小星星”的叮铃声。那玩意儿肯定俗气透了,但我喜欢那个音乐盒,我想知道它的工作原理是什么。后来我拆开了,才看到它里面一个简单的装置,机身内部镶嵌着一个拇指大小的金属圆筒,当它转动时会拨弄钢制的梳齿,从而发出这些音符。在一个程序员具备的所有特性中,想探究事物运转规律的这种好奇心必不可少...转载 2018-07-01 22:45:12 · 373 阅读 · 0 评论 -
python装饰器详解
“你会Python嘛?” “我会!” ‘那你给我讲下Python装饰器吧!’ “Python装饰器啊?我没用过哎” 简言之,python装饰器就是用于拓展原来函数功能的一种函数,这个函数的特殊之处在于它的返回值也是一个函数,使用python装饰器的好处就是在不用更改原函数的代码前提下给函数增加新的功能。 一般而言,我们要想拓展原来函数代码,最直接的办法就是侵入代码里面修改,例如:import ti...转载 2018-06-29 14:54:16 · 183 阅读 · 0 评论 -
python 结巴分词(jieba)学习
源码下载的地址:https://github.com/fxsjy/jieba演示地址:http://jiebademo.ap01.aws.af.cm/特点1,支持三种分词模式: a,精确模式,试图将句子最精确地切开,适合文本分析; b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; c,搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召...转载 2018-05-24 11:15:14 · 1465 阅读 · 0 评论 -
在pandas中遍历DataFrame行
有如下 Pandas DataFrame:import pandas as pdinp = [{'c1':10, 'c2':100}, {'c1':11,'c2':110}, {'c1':12,'c2':120}]df = pd.DataFrame(inp)print df上面代码输出: c1 c20 10 1001 11 1102 12 120现在需要遍历上面...转载 2018-02-24 14:51:51 · 15607 阅读 · 0 评论 -
写数据库UNICode字符错误解决方法
UnicodeEncodeError:'latin-1' codec can't encode characters in position 0-1: ordinal not in range(256) Scrapy1.使用scrapy对数据进行入库时,出现如下错误:UnicodeEncodeError:'latin-1' codec can't encode characters in posi...原创 2018-02-24 10:22:48 · 1321 阅读 · 0 评论 -
定时任务框架APScheduler学习详解
定时任务框架APScheduler学习详解APScheduler简介在平常的工作中几乎有一半的功能模块都需要定时任务来推动,例如项目中有一个定时统计程序,定时爬出网站的URL程序,定时检测钓鱼网站的程序等等,都涉及到了关于定时任务的问题,第一时间想到的是利用time模块的time.sleep()方法使程序休眠来达到定时任务的目的,虽然这样也可以,但是总觉得不是那么的专业,^_^所以转载 2018-01-30 14:37:37 · 1216 阅读 · 0 评论 -
Python:with语句和上下文管理器对象
今天看书,书上面提到要尽量使用with自动关闭资源,里面还提到了上下文管理器对象的概念,然后查找资料,对with的解释如下:with的有一些任务,可能事先需要设置,事后做清理工作。对于这种场景,Python的with语句提供了一种非常方便的处理方式。一个很好的例子是文件处理,需要获取一个文件句柄,从文件中读取数据,然后关闭文件句柄。下面就讲下with语句以及上下文管理器对象,希望对你有帮助。转载 2017-11-09 14:52:10 · 749 阅读 · 0 评论 -
Python-Pandas 如何shuffle(打乱)数据?
在Python里面,使用Pandas里面的DataFrame来存放数据的时候想要把数据集进行shuffle会许多的方法,本文介绍两种比较常用而且简单的方法。应用情景:我们有下面以个DataFrame我们可以看到BuyInter的数值是按照0,-1,-1,2,2,2,3,3,3,3这样排列的,我们希望不保持这个次序,但是同时列属性又不能改变,即如下效果:转载 2017-10-25 10:52:34 · 7578 阅读 · 0 评论 -
Python日期的加减等操作
1. 日期输出格式化所有日期、时间的api都在datetime模块内。1. datetime => stringnow = datetime.datetime.now()now.strftime('%Y-%m-%d %H:%M:%S')#输出2012-03-05 16:26:23.870105strftime是datetime类的实例方法。2. string转载 2017-10-24 16:49:35 · 57664 阅读 · 1 评论 -
Python2.x与3.x版本区别
Python的3.0版本,常被称为Python 3000,或简称Py3k。相对于Python的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0在设计的时候没有考虑向下相容。许多针对早期Python版本设计的程式都无法在Python 3.0上正常执行。为了照顾现有程式,Python 2.6作为一个过渡版本,基本使用了Python 2.x的语法和库,同时考虑了向Py转载 2017-08-30 00:15:43 · 296 阅读 · 0 评论 -
python进阶必读汇总
前言昨天翻到了一本在github开源的书: Intermediate Python. 就有了此文, 梳理了一下一些之前翻到的对Python语言细节点的答案, 博文等.英文的superPython’s super() considered super!rhettinger是python核心开发者. 这篇博文也是讲super最好最深入的博文了.装转载 2017-08-30 00:05:55 · 994 阅读 · 0 评论 -
Spark RDD、DataFrame和DataSet的区别
RDD优点:编译时类型安全 编译时就能检查出类型错误面向对象的编程风格 直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性能开销 频繁的创建和销毁对象, 势必会增加GCimport org.apache.spark.sql.SQLCo转载 2017-08-10 11:16:39 · 291 阅读 · 0 评论 -
python字符串换行的三种方式
if __name__ == '__main__':#第一种:三个单引号 print ''' 我是一个程序员 我刚开始学习Python'''#第二种:三个双引号 print """ 我是一个程序员 我刚开始学习python"""#第三种:\结尾 print "我是一个程序员,\ 我刚开始学p转载 2017-07-18 10:59:38 · 22631 阅读 · 0 评论 -
python的两种退出方式 os._exit() vs sys.exit()
os._exit() vs sys.exit()概述Python的程序有两种退出方式:os._exit(), sys.exit()。本文介绍这两种方式的区别和选择。os._exit()会直接将python程序终止,之后的所有代码都不会继续执行。sys.exit()会引发一个异常:SystemExit,如果这个异常没有被捕获,那么python解释器将会退出。如果有转载 2017-07-18 10:50:29 · 604 阅读 · 0 评论 -
Scikit-learn技巧(拓展)总结
1 scikit-learn基础介绍1.1 估计器(Estimator)估计器,很多时候可以直接理解成分类器,主要包含两个函数:fit():训练算法,设置内部参数。接收训练集和类别两个参数。predict():预测测试集类别,参数为测试集。大多数scikit-learn估计器接收和输出的数据格式均为numpy数组或类似格式。1.2 转换器(Transformer转载 2017-07-08 11:47:50 · 429 阅读 · 0 评论 -
人人都能用Python写出LSTM-RNN的代码![你的神经网络学习最佳起步]
---1. 概要我的最佳学习法就是通过玩具代码,一边调试一边学习理论。这篇博客通过一个非常简单的python玩具代码来讲解循环神经网络。那么依旧是废话少说,放‘码’过来![python] view plain copy import copy, numpy as np np.random.seed(0) # compute sigmoid转载 2017-06-07 15:51:15 · 876 阅读 · 0 评论 -
python 中文乱码问题深入分析
在本文中,以'哈'来解释作示例解释所有的问题,“哈”的各种编码如下: 1. UNICODE (UTF8-16),C854; 2. UTF-8,E59388; 3. GBK,B9FE。 一、python中的str和unicode 一直以来,python中的中文编码就是一个极为头大的问题,经常抛出编码转换的异常,python中的str和unicode到底是一个什么东西呢? 在p转载 2017-05-27 16:30:10 · 447 阅读 · 0 评论 -
python 字符编码与解码——unicode、str和中文:UnicodeDecodeError: 'ascii' codec can't decode
摘要:在进行Python脚本的编写时,如果我们用python来处理网页数据或者进行与中文字符有关的处理工作,经常出现这样的出错信息:SyntaxError: Non-ASCII character '\xe6' in file ./filename.py on line 3, but no encoding declared。本文主要讲解python中与unicode和中文、特殊字符编码有关的转载 2017-05-23 10:59:24 · 839 阅读 · 0 评论 -
Python list去重
比较容易记忆的是用内置的setl1 = ['b','c','d','b','c','a','a']l2 = list(set(l1))print l2还有一种据说速度更快的,没测试过两者的速度差别l1 = ['b','c','d','b','c','a','a']l2 = {}.fromkeys(l1).keys()print l2这两种都有个缺点,祛除重复转载 2017-05-17 09:42:17 · 434 阅读 · 0 评论 -
Python高级编程技巧
正文:本文展示一些高级的Python设计结构和它们的使用方法。在日常工作中,你可以根据需要选择合适的数据结构,例如对快速查找性的要求、对数据一致性的要求或是对索引的要求等,同时也可以将各种数据结构合适地结合在一起,从而生成具有逻辑性并易于理解的数据模型。Python的数据结构从句法上来看非常直观,并且提供了大量的可选操作。这篇指南尝试将大部分常用的数据结构知识放到一起,并且提供对其最佳用法转载 2017-05-16 00:16:14 · 2173 阅读 · 0 评论 -
Python中字符串中的数字提取方法
逛到一个有意思的博客http://cuiqingcai.com/category/technique/python 在里面看到一篇关于ValueError: invalid literal for int() with base 10错误的解析,针对这个错误,博主已经给出解决办法,使用的是re.sub 方法1 totalCount = '100abc'2 totalCount = r转载 2017-05-15 13:52:11 · 40456 阅读 · 1 评论 -
python—pandas中DataFrame类型数据操作函数
Python数据分析工具pandas中DataFrame和Series作为主要的数据结构.本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数。1)查看DataFrame数据及属性df_obj = DataFrame() #创建DataFrame对象df_obj.dtypes #查看各行的数据格式df_obj['列名'].astype(int)#转换转载 2017-05-15 13:49:22 · 713 阅读 · 0 评论 -
python 字符串 详解 (好用)
什么是字符串字符串字符串或串(String)是由数字、字母、下划线组成的一串字符。一般记为 s=“a1a2···an”(n>=0)。它是编程语言中表示文本的数据类型。通常以串的整体作为操作对象,如:在串中查找某个子串、求取一个子串、在串的某个位置上插入一个子串以及删除一个子串等。两个字符串相等的充要条件是:长度相等,并且各个对应位置上的字符都相等。python 字符串相关特性转载 2017-05-12 16:06:21 · 752 阅读 · 0 评论 -
Python-list-sort()
Python-list-sort()http://wiki.python.org/moin/HowTo/Sorting/Python lists have a built-in sort() method that modifies the list in-place and asorted()built-in function that builds a new sorted lis转载 2017-05-11 14:43:18 · 467 阅读 · 0 评论 -
Python转义字符
Python转义字符在需要在字符中使用特殊字符时,python用反斜杠(\)转义字符。如下表:原始字符串有时我们并不想让转义字符生效,我们只想显示字符串原来的意思,这就要用r和R来定义原始字符串。如:print r'\t\r'实际输出为“\t\r”。 转义字符描述\(在行尾时)续行符\\反斜杠符号转载 2017-05-10 14:17:48 · 3042 阅读 · 0 评论 -
Python中的高级数据结构
数据结构数据结构的概念很好理解,就是用来将数据组织在一起的结构。换句话说,数据结构是用来存储一系列关联数据的东西。在Python中有四种内建的数据结构,分别是List、Tuple、Dictionary以及Set。大部分的应用程序不需要其他类型的数据结构,但若是真需要也有很多高级数据结构可供选择,例如Collection、Array、Heapq、Bisect、Weakref、Copy以及Ppri转载 2017-05-10 11:11:23 · 640 阅读 · 0 评论 -
Python之isinstance
[python] view plain copy isinstance isinstance(object, classinfo) 判断实例是否是这个类或者object是变量 classinfo 是类型(tuple,dict,int,float) 判断变量是否是这个类型 class objA: pass A = objA() B = '转载 2017-05-08 15:48:02 · 403 阅读 · 0 评论 -
Python中字典创建、遍历、添加等实用操作技巧合集
字段是Python是字典中唯一的键-值类型,是Python中非常重要的数据结构,因其用哈希的方式存储数据,其复杂度为O(1),速度非常快。下面列出字典的常用的用途.一、字典中常见方法列表复制代码 代码如下:#方法 #描述 -------------------------------------------转载 2017-05-02 14:32:53 · 55952 阅读 · 0 评论 -
Python小技巧:使用*解包和itertools.product()求笛卡尔积
Python小技巧:使用*解包和itertools.product()求笛卡尔积【问题】目前有一字符串s = "['a', 'b'],['c', 'd']",想把它分开成为两个列表:list1 = ['a', 'b']list2 = ['c', 'd']之后使用itertools.product()求笛卡尔积,应该写成:1 for i转载 2017-04-28 09:18:00 · 1670 阅读 · 0 评论 -
Python:Matplotlib 画图(Code)
首先补充一下:两种体系7种颜色 r g b y m c k (红,绿,蓝,黄,品红,青,黑)在科研的过程中,坐标系中的XY不一定就是等尺度的。例如在声波中对Y轴取对数。肆意我们也必须知道这种坐标系如何画出来的。 1:对数坐标图 有3个函数可以实现这种功能,分别是:semilogx(),semilogy(),loglog()。它们分别表示对X轴,转载 2017-04-12 22:57:50 · 1921 阅读 · 0 评论 -
Pandas DataFrames筛选数据的方法
在使用dataframe处理数据的时候碰到了按照条件选取行的问题,单个条件时可以使用:df[df['one'] > 5]如果多个条件的话需要这么写:import numpy as npdf[np.logical_and(df['one']> 5,df['two']>5)]也可以这么写df[(df['one']> 5) & (df['two']>5)]转载 2017-04-09 15:49:12 · 3949 阅读 · 0 评论