
python 工具包
文章平均质量分 55
mishidemudong
菜鸟上路,一颗红心,两手准备。
展开
-
jieba-基于TextRank关键词提取的实现
对每个句子进行分词和词性标注处理 过滤掉除指定词性外的其他单词,过滤掉出现在停用词表的单词,过滤掉长度小于2的单词 将剩下的单词中循环选择一个单词,将其与其后面4个单词分别组合成4条边。例如:[‘有’,‘媒体’, ‘曝光’,‘高圆圆’, ‘和’, ‘赵又廷’,‘现身’, ‘台北’, ‘桃园’,‘机场’,‘的’, ‘照片’]对于‘媒体‘这个单词,就有(‘媒体’, ‘曝光’)、(‘媒体’, ‘圆’)、(‘媒体’, ‘和’)、(‘媒体’, ‘赵又廷’)4条边,且每条边权值为1,当这条边在之后再次出现时,权值转载 2020-11-24 09:58:24 · 1197 阅读 · 0 评论 -
比 matplotlib 效率高十倍的数据可视化神器
心理学上有一个名词叫“沉没成本谬误”,它指如果我们已经在一项事业上花费了很多时间,那么即使明知是失败的,我们仍然会倾向于继续把时间和资源花在上面。在数据可视化的路上,我也曾犯过这样的错误。当我明知存在更高效、更具交互性和外观更好的替代方案时,我却仍然继续使用一个过时的绘图库——matplotlib,只是因为我曾经花了数百个小时来学习 matplotlib 复杂的语法。幸运的是,现在...转载 2019-08-26 10:12:46 · 383 阅读 · 0 评论 -
##好好好###python实现RESTful服务(基于flask)
前言上一篇文章讲到如何用java实现RESTful服务,这就来讲讲怎么用python来实现吧,因为要搭建一套java和python互调的服务,两者都不能少啊。对于python的述求呢也是要轻量化,并且能快捷开发,因为我这套服务主要控制逻辑还是在java端,python这块负责一些工具逻辑,比如网页爬取、文字转拼音、图像处理等等,在java端当成工具类来使用,所以轻量和快捷开发就是重点了w...转载 2019-02-26 14:17:51 · 207 阅读 · 0 评论 -
###好好好###将 TensorFlow 移植到 Android手机,实现物体识别、行人检测和图像风格迁移详细教程
2017/02/23 更新贴一个TensorFlow 2017开发者大会的Mobile专题演讲移动和嵌入式TensorFlow这里面有重点讲到本文介绍的三个例子,以及其他的移动和嵌入式方面的TF相关问题,干货很多2017/01/17 更新今天上 Github,发现 Tensorflow 的 android demo又更新了,除了基本的修改以外,又增加了一个图像风格迁移的安卓de...转载 2018-09-06 11:24:57 · 293 阅读 · 0 评论 -
python2代码批量转为python3代码
由于python存在python2和python3两个主要的版本方向,经常会有将python2的代码转到python3的环境下运行的需求。尤其是跑一些神经网络的代码时有很多是在python2的环境下写的。在python3下运行会遇见很多不兼容,最常见的就是python3中print函数必须加()而python2中不是。一个一个修改这种错误又非常麻烦。此时一种方式是再安装一个python2,比如下载...转载 2018-06-21 11:25:15 · 608 阅读 · 0 评论 -
音频特征提取——librosa工具包使用
前言 本文主要记录librosa工具包的使用,librosa在音频、乐音信号的分析中经常用到,是python的一个工具包,这里主要记录它的相关内容以及安装步骤,用的是python3.5以及win8.1环境。一、MIR简介音乐信息检索(Music information retrieval,MIR)主要翻译自wikipedia.MIR是从音乐中检索信息的跨学科科学,该领域需要心理学、乐理学、信号处理...转载 2018-06-05 00:50:23 · 4429 阅读 · 0 评论 -
Python的JAVA胶水——jpype
Python的JAVA胶水——jpypepython可以作为一门胶水语言使用,可以用其它语言的优势来弥补自身如性能方面的不足,jpype就是在Python中使用jvm的第三方库文档在这里安装sudo pip jpype1 #注意后面有一个1,参考官网配置安装JAVA环境本文就不再赘述helloworld设置参数启动JAVA虚拟机运行JAVA代码关闭虚拟机#coding=utf=8import ...转载 2018-05-08 13:43:38 · 688 阅读 · 0 评论 -
定时任务框架APScheduler学习详解
定时任务框架APScheduler学习详解APScheduler简介在平常的工作中几乎有一半的功能模块都需要定时任务来推动,例如项目中有一个定时统计程序,定时爬出网站的URL程序,定时检测钓鱼网站的程序等等,都涉及到了关于定时任务的问题,第一时间想到的是利用time模块的time.sleep()方法使程序休眠来达到定时任务的目的,虽然这样也可以,但是总觉得不是那么的专业,^_^所以转载 2018-01-30 14:37:37 · 1216 阅读 · 0 评论 -
scipy.spatial 距离计算模块
在scipy.spatial中最重要的模块应该就是距离计算模块distance了。from scipy import spatial距离计算矩阵距离计算函数矩阵参数每行代表一个观测值,计算结果就是每行之间的metric距离。Distance matrix computation from a collection of raw observation vecto转载 2017-12-11 15:19:06 · 7121 阅读 · 0 评论 -
Python-Pandas 如何shuffle(打乱)数据?
在Python里面,使用Pandas里面的DataFrame来存放数据的时候想要把数据集进行shuffle会许多的方法,本文介绍两种比较常用而且简单的方法。应用情景:我们有下面以个DataFrame我们可以看到BuyInter的数值是按照0,-1,-1,2,2,2,3,3,3,3这样排列的,我们希望不保持这个次序,但是同时列属性又不能改变,即如下效果:转载 2017-10-25 10:52:34 · 7578 阅读 · 0 评论 -
pandas 解析json文件为DataFrame的三种方式以及其灵活度和效率的比较
我所了解到的,将json串解析为DataFrame的方式主要有一样三种:利用pandas自带的read_json直接解析字符串利用json的loads和pandas的json_normalize进行解析利用json的loads和pandas的DataFrame直接构造(这个过程需要手动修改loads得到的字典格式)实验代码如下:[python] vi转载 2017-10-19 13:55:42 · 2128 阅读 · 0 评论 -
JPype:实现在python中调用JAVA
JPype:实现在python中调用JAVA一、JPype简述1.JPype是什么? JPype是一个能够让 python 代码方便地调用 Java 代码的工具,从而克服了 python 在某些领域(如服务器端编程)中的不足。2.JPype与Jython(JPython后继者)的区别? 1)运行环境不同:jython运行在j转载 2017-10-19 10:21:02 · 904 阅读 · 0 评论 -
python 的日志logging模块学习
1.简单的将日志打印到屏幕 import logginglogging.debug('This is debug message')logging.info('This is info message')logging.warning('This is warning message') 屏幕上打印:WARNING:r转载 2017-10-18 10:02:08 · 208 阅读 · 0 评论 -
Neo4j+py2neo性能测试(CMDB二)
原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://leontam.blog.51cto.com/8150854/1344482性能测试:本地笔记本,CPU: i5, 内存: 8G, win7_x64, python 2.7, neo4j comunity 2.0.创建60000个CI, 耗时1分51秒, 平转载 2017-09-28 22:28:33 · 3445 阅读 · 0 评论 -
在 Python 中使用 Neo4j
Neo4j是面向对象基于Java的 ,被设计为一个建立在Java之上、可以直接嵌入应用的数据存储。此后,其他语言和平台的支持被引入,Neo4j社区获得持续增长,获得了越来越多的技术支持者。目前已支持.NET、Ruby、Python、Node.js及PHP等。因此,不管是什么项目,没有理由不引入Neo4j。本文重点介绍Python,这门语言的哲学与Java大大不同,同时展示py2neo库如何转载 2017-09-28 22:25:41 · 4540 阅读 · 0 评论 -
py2neo——Neo4j&python的配合使用
概要之前在优快云上写过一个blog(http://blog.youkuaiyun.com/wrzcy/article/details/51905977 ),简单的介绍了Neo4j图形数据库,主要是以基础概念和定义为主。今天就通过python面向Neo4j的库py2neo来对Neo4j进行一些简单的操作,包括:连接Neo4j数据库节点的建立节点之间关系的建立关系属性赋值以及属性值的更新通过属性值查转载 2017-09-28 22:21:36 · 5164 阅读 · 0 评论 -
###好好好### 【Python实战】Pandas:让你像写SQL一样做数据分析 ######
1. 引言Pandas是一个开源的Python数据分析库。Pandas把结构化数据分为了三类:Series,1维序列,可视作为没有column名的、只有一个column的DataFrame;DataFrame,同Spark SQL中的DataFrame一样,其概念来自于R语言,为多column并schema化的2维结构化数据,可视作为Series的容器(container);Panel转载 2017-09-25 09:55:35 · 654 阅读 · 0 评论 -
机器学习xgboost实战—手写数字识别 (DMatrix)
目录(?)[-]xgboost 安装手写数字识别1数据获取2 代码实现3 测试训练模型4总结1、xgboost 安装安装问题这里就不再做赘述,可参考前面写的博文: http://blog.youkuaiyun.com/eddy_zheng/article/details/501845632、手写数字识别这里先说明下,x转载 2017-09-21 16:27:49 · 21554 阅读 · 5 评论 -
机器学习xgboost实战—手写数字识别
1、xgboost 安装安装问题这里就不再做赘述,可参考前面写的博文: http://blog.youkuaiyun.com/eddy_zheng/article/details/501845632、手写数字识别这里先说明下,xgboost用作手写字符的分类效果并不是最好的,这里仅仅作为一个教学的实例。本文中用的数据集来自kaggle 的新手入门数字识别(https://www.kag转载 2017-09-15 13:27:07 · 516 阅读 · 0 评论 -
XGBoost4J: Portable Distributed XGBoost in Spark, Flink and Dataflow
IntroductionOn March 2016, we released the first version of XGBoost4J, which is a set of packages providing Java/Scala interfaces of XGBoost and the integration with prevalent JVM-based distribute转载 2017-09-15 06:47:07 · 1725 阅读 · 0 评论 -
Ubuntu16.04 安装xgboost(anaconda3)
首先安装anaconda3,这个没什么好说的之后需要先升级下anaconda3,命令'conda install libgcc'最后就是安装xgboost了,命令pip install xgboost有问题的话https://github.com/dmlc/xgboost/issues/1946这个网址查查看转载 2017-09-14 11:13:17 · 592 阅读 · 0 评论 -
##########(好好好)xgboost原理########
版权声明:如需转载,请注明出处http://blog.youkuaiyun.com/a819825294目录(?)[-]序xgboost vs gbdt原理自定义损失函数指定gradhessXgboost调参工程实现优化代码走读pythonR对于xgboost的简单使用xgboost中比较重要的参数介绍DARTcsr_matrix训练XGBoostTip参考文献转载 2017-09-13 16:51:54 · 483 阅读 · 0 评论 -
python-Pandas学习 如何对数据集随机抽样?
摘要:有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。应用场景:我有10W行数据,每一行都11列的属性。现在,我们只需要随机抽取其中的2W行。实现方法很简单:利用Pandas库中的sample。DataFrame.sample(n=None, frac=None转载 2017-09-12 14:27:09 · 5415 阅读 · 0 评论 -
#######基于sklearn 的one hot encoding原理######
1.one hot编码的由来在实际的应用场景中,有非常多的特征不是连续的数值变量,而是某一些离散的类别。比如在广告系统中,用户的性别,用户的地址,用户的兴趣爱好等等一系列特征,都是一些分类值。这些特征一般都无法直接应用在需要进行数值型计算的算法里,比如CTR预估中最常用的LR。那针对这种情况最简单的处理方式是将不同的类别映射为一个整数,比如男性是0号特征,女性为1号特征。这种方式最大的优点转载 2017-08-25 10:12:58 · 634 阅读 · 0 评论 -
#####分析比较深刻的集成学习方法应用实验(RF、GBDT)
集成学习正广泛地被应用于机器学习/数据挖掘的实际项目之中。掌握集成学习方法,了解其特性与适用场景,对机器学习理论与实践的结合帮助甚大。这里,我们考察集成学习最重要的两种类型:装袋(Bagging)与提升(Boosting),从其两大算法入手:Random Forest、GBDT,基于自己生成的数据集场景和UCI数据集开展实验,对比分析算法的表现。基础简要回顾关于集成学习,引用博文笔转载 2017-08-23 11:50:31 · 804 阅读 · 0 评论 -
fast-DTW算法 python实现
之前已经介绍过了DTW算法,现在根据文章 toward accurate dynamic time warping in linear time and space,以及别人实现的fastdtw代码分析fast-DTW算法。参考博客:http://www.cnblogs.com/kemaswill/archive/2013/04/18/3029078.html 简单讲讲fast-DTW,该转载 2017-08-21 11:50:48 · 11961 阅读 · 4 评论 -
python的两种退出方式 os._exit() vs sys.exit()
os._exit() vs sys.exit()概述Python的程序有两种退出方式:os._exit(), sys.exit()。本文介绍这两种方式的区别和选择。os._exit()会直接将python程序终止,之后的所有代码都不会继续执行。sys.exit()会引发一个异常:SystemExit,如果这个异常没有被捕获,那么python解释器将会退出。如果有转载 2017-07-18 10:50:29 · 604 阅读 · 0 评论 -
python求各种距离公式
[python] view plain copy今天一个偶然的机会体会到了python数据运算的强大。求一个数组各样本之间的距离仅简单的几句代码就行。看来真的技术改变世界啊。废话不多说,记下来怕以后忘记。 [python] view plain copyfrom scipy.spatial.distance im转载 2017-07-11 14:46:38 · 4029 阅读 · 0 评论 -
DTW(Dynamic Time Warping / 动态时间归整) python实现
[python] view plain copyfrom math import * import matplotlib.pyplot as plt import numpy def print_matrix(mat) : print '[matrix] width : %d height : %d' % (len(mat[0转载 2017-06-02 16:46:34 · 5255 阅读 · 0 评论 -
python 中文乱码问题深入分析
在本文中,以'哈'来解释作示例解释所有的问题,“哈”的各种编码如下: 1. UNICODE (UTF8-16),C854; 2. UTF-8,E59388; 3. GBK,B9FE。 一、python中的str和unicode 一直以来,python中的中文编码就是一个极为头大的问题,经常抛出编码转换的异常,python中的str和unicode到底是一个什么东西呢? 在p转载 2017-05-27 16:30:10 · 447 阅读 · 0 评论 -
##########(python 解析参数方法 可用) Python optionParser模块的使用方法 #######
Python 有两个内建的模块用于处理命令行参数:一个是 getopt,《Deep in python》一书中也有提到,只能简单处理 命令行参数;另一个是 optparse,它功能强大,而且易于使用,可以方便地生成标准的、符合Unix/Posix 规范的命令行说明。示例from optparse import OptionParser转载 2017-05-05 10:33:22 · 5163 阅读 · 0 评论 -
Python中字典创建、遍历、添加等实用操作技巧合集
字段是Python是字典中唯一的键-值类型,是Python中非常重要的数据结构,因其用哈希的方式存储数据,其复杂度为O(1),速度非常快。下面列出字典的常用的用途.一、字典中常见方法列表复制代码 代码如下:#方法 #描述 -------------------------------------------转载 2017-05-02 14:32:53 · 55952 阅读 · 0 评论 -
tensorflow实现偏微分方程的例子--模拟水滴掉落
TensorFlow 不仅仅是用来机器学习,它更可以用来模拟仿真。在这里,我们将通过模拟仿真几滴落入一块方形水池的雨点的例子,来引导您如何使用 TensorFlow 中的偏微分方程来模拟仿真的基本使用方法。注:本教程最初是准备做为一个 IPython 的手册。译者注:关于偏微分方程的相关知识,译者推荐读者查看 网易公开课 上的《麻省理工学院公开课:多变量微积分》课程。基转载 2017-04-28 11:04:07 · 3956 阅读 · 0 评论 -
Python小技巧:使用*解包和itertools.product()求笛卡尔积
Python小技巧:使用*解包和itertools.product()求笛卡尔积【问题】目前有一字符串s = "['a', 'b'],['c', 'd']",想把它分开成为两个列表:list1 = ['a', 'b']list2 = ['c', 'd']之后使用itertools.product()求笛卡尔积,应该写成:1 for i转载 2017-04-28 09:18:00 · 1670 阅读 · 0 评论 -
python绘制地图的利器Cartopy使用说明
python绘制地图一般使用Basemap绘图包,但该包配置相对较繁琐,自定义性不强,这里介绍一个绘制地图的利器Cartopy,个人认为该工具方便、快捷,附上一些自己写的程序。准备工作,工欲善其事,必先利其器(1)先下载主角:Cartopya)下载地址:linux平台直接去官网下载:http://scitools.org.uk/cartopy/download.htmlwind转载 2017-04-25 14:18:36 · 53287 阅读 · 10 评论 -
¥¥%%%%%Ubuntu下用matplotlib作图时显示中文###重点第5条可以用!!!!%%%%%
Ubuntu下用matplotlib作图时显示中文之前在Ubuntu下用matplotlib作图的时候发现无法正常显示中文,查了一番以后发现是Ubuntu系统和matplotlib库没有共同可显示的中文字体库的原因。用此文章的方法可以解决这一问题。1.首先需要安装中文字体git clone https://github.com/tracyone/program_font && cd p转载 2017-04-24 19:37:18 · 546 阅读 · 0 评论 -
Matplotlib 饼状图中的文字中文乱码问题
摘要: 今天画饼状图出现中文乱码,用传统的文字乱码处理方法包括设置rcParams,修改matplotlibrc都没有解决,最后通过直接直接找到实例用set_fontproperties解决今天用matplotlib画饼状图时候遇到中文乱码,一般遇到中文乱码有两种通用的解决方法,一种是修改matplotlibrc,通过修改matplotlibrc中的font.sans-serif添加中转载 2017-04-18 11:06:49 · 10294 阅读 · 0 评论 -
Python:Matplotlib 画图(Code)
首先补充一下:两种体系7种颜色 r g b y m c k (红,绿,蓝,黄,品红,青,黑)在科研的过程中,坐标系中的XY不一定就是等尺度的。例如在声波中对Y轴取对数。肆意我们也必须知道这种坐标系如何画出来的。 1:对数坐标图 有3个函数可以实现这种功能,分别是:semilogx(),semilogy(),loglog()。它们分别表示对X轴,转载 2017-04-12 22:57:50 · 1921 阅读 · 0 评论 -
Anaconda 在linux下的安装
安装完anaconda后,输入Python,还是系统自带的版本 解决办法 在家目录下的.bashrc(即:~/.bashrc)添加路径 在文档最后,添加:export PATH=/home/book/anaconda2/bin:$PATH11保存退出后,更新路径source ~/.bashrc转载 2017-04-09 21:18:20 · 824 阅读 · 0 评论 -
Pandas DataFrames筛选数据的方法
在使用dataframe处理数据的时候碰到了按照条件选取行的问题,单个条件时可以使用:df[df['one'] > 5]如果多个条件的话需要这么写:import numpy as npdf[np.logical_and(df['one']> 5,df['two']>5)]也可以这么写df[(df['one']> 5) & (df['two']>5)]转载 2017-04-09 15:49:12 · 3949 阅读 · 0 评论