
python
文章平均质量分 58
扎克伯哥
彩笔
展开
-
[python]split 和 join
一、关于split 和 join 方法1只针对字符串进行处理。split:拆分字符串、join连接字符串2.string.join(sep): 以string作为分割符,将sep中所有的元素(字符串表示)合并成一个新的字符串3.string.split(str=' ',num=string.count(str)): 以str为分隔,符切片string,如果num有指定值,则仅分转载 2015-01-19 20:51:48 · 410 阅读 · 0 评论 -
在sklearn中使用DataFrame的一些问题
问题1 DataFrame能直接做训练集和测试集吗?猜想最近使用sklearn的模型的时候发现训练集可以直接传入pandas的DataFrame进行训练,而且进行预测的时候也可以直接传入DataFrame,我以为sklearn可以直接识别DataFrame中数据列的顺序,即使列的顺序是乱的也可以直接进行预测,于是做了个测试。测试这里训练集的x_train,测试集是x_test:原创 2016-05-17 22:00:49 · 6257 阅读 · 1 评论 -
标签传播算法(LPA)Python实现
标签传播算法(LPA)的做法比较简单:第一步:为所有节点指定一个唯一的标签;第二步:逐轮刷新所有节点的标签,直到达到收敛要求为止。对于每一轮刷新,节点标签刷新的规则如下:对于某一个节点,考察其所有邻居节点的标签,并进行统计,将出现个数最多的那个标签赋给当前节点。当个数最多的标签不唯一时,随机选一个。注:算法中的记号 N_n^k 表示节点 n 的邻居中标签原创 2016-07-07 17:35:09 · 10703 阅读 · 2 评论 -
决策树(ID3,C4.5)Python实现
看了《统计学习方法》就尝试写了个简单的决策树,使用信息增益(ID3)或者信息增益率(C4.5),但是没弄好剪枝,自己写的剪枝一剪就只剩根节点和一个叶子节点了,目前只有训练和预测的功能,容易过拟合。原创 2016-06-26 15:24:40 · 1529 阅读 · 0 评论 -
用python从pdf中提取信息,转为txt或者html
主要用到了pdfminer这个库原文地址:http://www.bkjia.com/Pythonjc/1073800.html示例代码# -*- coding: utf-8 -*- from pdfminer.pdfparser import PDFParserfrom pdfminer.pdfdocument import PDFDocumentfrom转载 2016-06-19 10:46:27 · 9867 阅读 · 1 评论 -
The Zen of Python
一共19条,由Tim Peters总结,在Python命令行里打import this就可以看到这些内容为了防止在翻译的过程中丢失词意,在括号里注明了更全面一些的原意Beautiful is better than ugly.1,美比丑好Explicit is better than implicit.2,显式(清晰、明确)比隐式(含蓄、暗示)好转载 2016-07-27 16:01:04 · 436 阅读 · 0 评论 -
pandas和数据库进行交互(以mysql为例)
pandas提供了将数据便捷存入关系型数据库的方法在新版的pandas中,主要是以sqlalchemy方式与数据库建立链接支持Mysql、postgresql、Oracle、MS SQLServer、SQLite等主流数据库本例以MySql为代表,展示将从tushare中获取到的股票数据存入数据库的方法其他类型数据库请参考sqlalchemy官方文档的create_engine部分原创 2016-07-17 22:34:32 · 36191 阅读 · 0 评论 -
Python random模块(获取随机数)常用方法和使用例子
转自:http://www.jb51.net/article/50066.htm随机浮点数random.randomrandom.random()用于生成一个0到1的随机浮点数: 0 random.uniformrandom.uniform(a, b),用于生成一个指定范围内的随机符点数,两个参数其中一个是上限,一个是下限。如果a > b,则生成的随机数n:转载 2016-08-28 10:13:08 · 11147 阅读 · 1 评论 -
Python sorted 对字典列表
>>> s[{'id': 3}, {'id': 1}, {'id': 2}]>>> sorted(s, cmp = lambda x,y:cmp(x["id"],y["id"]))[{'id': 1}, {'id': 2}, {'id': 3}]>>>原创 2017-05-27 11:51:03 · 672 阅读 · 0 评论 -
Pycharm Mac安装
下载链接:https://confluence.jetbrains.com/display/PYH/Previous+PyCharm+Releases选择:Version 4.5.5 (build 141.3058) May 11th, 2016下载dmg激活注册user name: EMBRACEkey:14203-12042010转载 2017-06-03 10:52:31 · 3291 阅读 · 0 评论 -
pandas笔记,长期记录不会的知识点~
1,如果有些列用不到了,用drop([列名],axis=1)去掉,别用del。 2,groupby后的对象是一个个的DataFrame,虽然不能print出来,但是可以使用apply方法,此时的apply传入的参数x就是一个个的DataFrame。 3,DataFrame需要有多个约束条件的时候,不能用and,可以用多个[],例如:temp3[temp3.Final_in_ZD原创 2016-05-17 19:56:11 · 1957 阅读 · 0 评论 -
python学习笔记,长期记录不会的知识
推荐大家去看《Effective Python》,看了以后觉得以前的代码都白写了+_+原创 2016-05-17 19:54:23 · 772 阅读 · 0 评论 -
协同过滤的简单实现
数据集:http://grouplens.org/datasets/movielens/u_mr{user:{movie:rating,},}转换为m_ur{movie:{user:rating,},} 相关系数(similarity)计算:欧几里得距离;皮尔逊相关系数;其他还有Jaccard系数,曼哈顿距离算法输入:两个暂时用字典表示的{key:val原创 2015-12-28 14:25:13 · 465 阅读 · 0 评论 -
setuptools升级7+引发的错误
今天用pip install包的时候,下载完成后报了以下错误ValueError: A 0.7-series setuptools cannot be installed with distribute. Found one at /usr/local/lib/python2.7/dist-packages/setuptools-20.7.0.post20160415-py2.7.egg原创 2016-04-15 10:27:37 · 2405 阅读 · 0 评论 -
PYTHON正则表达式 re模块使用说明
正则表达式是一个复杂的主题。本文能否有助于你理解呢?那些部分是否不清晰,或在这儿没有找到你所遇到的问题?如果是那样的话,请将建议发给作者以便改进首先,运行 Python 解释器,导入 re 模块并编译一个 RE:#!python Python 2.2.2 (#1, Feb 10 2003, 12:57:01) >>> import re >>>转载 2015-01-20 09:15:22 · 675 阅读 · 0 评论 -
python enumerate用法
enumerate字典上是枚举、列举的意思。C语言中关键字enum也是enumerate的缩写。python中enumerate方法,返回一个enumerate类型。参数一般是可以遍历的的东西,比如列表,字符串什么的。python文档中是这么说的:enumerate(sequence, [start=0])Retu转载 2015-04-22 10:39:47 · 1041 阅读 · 0 评论 -
python统计《悲惨世界》中出现次数最多的20个单词并绘制柱状图
处理的数据像这样的csv文件,已经统计好了,用mapreduce处理的you,3768i,3930not,3981this,4208at,4292on,4714with,4737which,5506is,6504had,6564his,6813it,7026that,8413was,9251he,10280in,11813to,14663a,15366and原创 2015-11-07 21:52:30 · 3051 阅读 · 0 评论 -
python在Windows下将.py转换成.exe文件
到https://codeload.github.com/pyinstaller/pyinstaller/zip/develop下载pyinstaller-develop.zip随便解压到文件夹里,这里我解压到C:\Python27\pyinstaller-develop中去了我这里在这个文件夹里建个了ready文件夹,放进了准备生成exe文件的python脚本之后进入pyinstal原创 2015-11-01 11:24:53 · 3425 阅读 · 0 评论 -
knn聚类测试
1,任务介绍在kaggle上做的最简单的一个题题目地址:https://www.kaggle.com/c/street-view-getting-started-with-julia训练集: 由下图所示的图片 和图片对应字符组成 测试图片就是和右边类似的图片类似的图片目的是识别测试图片中的字符这里用的都是20*20的小图片,便于处理, 用大图片可能会增加准确率2,首先把图片转为矩阵#原创 2015-12-27 22:53:14 · 1594 阅读 · 0 评论 -
构造验证码训练集
1,生成带有字符的图片使用PIL库中的Image,ImageFont,ImageDraw三个模块im = Image.new("L",(420,80),255)dr = ImageDraw.Draw(im)#录入字体文件,在网上下相关字体,不用就是默认的font = ImageFont.truetype("micro.ttf",48)#在画布上写字,text是要录入的字符串原创 2015-12-28 14:20:50 · 2629 阅读 · 0 评论 -
几个pandas数据处理中的常用操作
记几个常用的函数,具体用法去官网查啦import的惯例:import pandas as pdfrom pandas import Series,DataFrame显示一些数字特征:df.describe()#显示很多,均值,标准差,分位数等等df.quantile(0.75)#显示3/4分位数df.std()#显示标准差,样本标准差?读取存在csv中的dataframe原创 2016-01-08 09:38:28 · 33634 阅读 · 0 评论 -
windows下sklearn的安装
之前只在linux下用过sklearn,前几天在windows先也装了sklearn,之前显示安装成功,结果各种不能用主要是sicpy报错,然后又发现scipy安装的时候需要numpy+mkl(可选的pillow)在这个网站http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy,位数和系统版本数都写的很清楚下载的numpy+mkl、pillow原创 2016-01-08 09:55:27 · 3151 阅读 · 0 评论 -
用kmeans对图片像素进行聚类
用kmeans对图片像素进行聚类对sklearn中kmeans的简单应用1,获得示例图像在scipy.misc 模块中有一个函数可以载入lena图像from scipy import misclena = misc.lena()plt.subplot()plt.imshow(lena,cmap=plt.cm.gray)使用灰度颜色表把图显示出来 因为把图像转为矩阵的话,矩阵中的值就是灰度原创 2015-12-27 21:19:43 · 14231 阅读 · 3 评论 -
pandas不能在pycharm中使用plot()方法显示图像的解决方法
最近用了pycharm,感觉还不错,就是pandas中Series、DataFrame的plot()方法不显示图片就给我结束了,但是我在ipython里就能画图以前的代码是这样的import matplotlib.pyplot as pltfrom pandas import DataFrame,SeriesSeries([4,5,7]).plot()找了半天发现只要加个pl原创 2016-01-12 17:29:00 · 35816 阅读 · 12 评论 -
python持久性管理pickle模块详细介绍
pickle可以保存python对象,方便以后的使用,可以用来保存模型,使用方法:import cPickle as picklehi = {1:{1:2,3:4},2:{2:3,3:8}}f = open('wordict','wb')pickle.dump(hi,f,1)f.close()f = open('wordict','rb')pi = pickle.load(f)f转载 2016-02-24 10:11:27 · 610 阅读 · 0 评论 -
常用排序算法总结
这种东西,总是忘,还是不熟,也不关心,太笨了,随便总结一下,可能写的还不对,有错请指出原创 2017-08-25 02:58:47 · 1401 阅读 · 0 评论