
机器学习
文章平均质量分 64
扎克伯哥
彩笔
展开
-
knn聚类测试
1,任务介绍在kaggle上做的最简单的一个题题目地址:https://www.kaggle.com/c/street-view-getting-started-with-julia训练集: 由下图所示的图片 和图片对应字符组成 测试图片就是和右边类似的图片类似的图片目的是识别测试图片中的字符这里用的都是20*20的小图片,便于处理, 用大图片可能会增加准确率2,首先把图片转为矩阵#原创 2015-12-27 22:53:14 · 1594 阅读 · 0 评论 -
构造验证码训练集
1,生成带有字符的图片使用PIL库中的Image,ImageFont,ImageDraw三个模块im = Image.new("L",(420,80),255)dr = ImageDraw.Draw(im)#录入字体文件,在网上下相关字体,不用就是默认的font = ImageFont.truetype("micro.ttf",48)#在画布上写字,text是要录入的字符串原创 2015-12-28 14:20:50 · 2629 阅读 · 0 评论 -
几个pandas数据处理中的常用操作
记几个常用的函数,具体用法去官网查啦import的惯例:import pandas as pdfrom pandas import Series,DataFrame显示一些数字特征:df.describe()#显示很多,均值,标准差,分位数等等df.quantile(0.75)#显示3/4分位数df.std()#显示标准差,样本标准差?读取存在csv中的dataframe原创 2016-01-08 09:38:28 · 33634 阅读 · 0 评论 -
windows下sklearn的安装
之前只在linux下用过sklearn,前几天在windows先也装了sklearn,之前显示安装成功,结果各种不能用主要是sicpy报错,然后又发现scipy安装的时候需要numpy+mkl(可选的pillow)在这个网站http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy,位数和系统版本数都写的很清楚下载的numpy+mkl、pillow原创 2016-01-08 09:55:27 · 3151 阅读 · 0 评论 -
用kmeans对图片像素进行聚类
用kmeans对图片像素进行聚类对sklearn中kmeans的简单应用1,获得示例图像在scipy.misc 模块中有一个函数可以载入lena图像from scipy import misclena = misc.lena()plt.subplot()plt.imshow(lena,cmap=plt.cm.gray)使用灰度颜色表把图显示出来 因为把图像转为矩阵的话,矩阵中的值就是灰度原创 2015-12-27 21:19:43 · 14231 阅读 · 3 评论 -
在sklearn中使用DataFrame的一些问题
问题1 DataFrame能直接做训练集和测试集吗?猜想最近使用sklearn的模型的时候发现训练集可以直接传入pandas的DataFrame进行训练,而且进行预测的时候也可以直接传入DataFrame,我以为sklearn可以直接识别DataFrame中数据列的顺序,即使列的顺序是乱的也可以直接进行预测,于是做了个测试。测试这里训练集的x_train,测试集是x_test:原创 2016-05-17 22:00:49 · 6257 阅读 · 1 评论 -
标签传播算法(LPA)Python实现
标签传播算法(LPA)的做法比较简单:第一步:为所有节点指定一个唯一的标签;第二步:逐轮刷新所有节点的标签,直到达到收敛要求为止。对于每一轮刷新,节点标签刷新的规则如下:对于某一个节点,考察其所有邻居节点的标签,并进行统计,将出现个数最多的那个标签赋给当前节点。当个数最多的标签不唯一时,随机选一个。注:算法中的记号 N_n^k 表示节点 n 的邻居中标签原创 2016-07-07 17:35:09 · 10703 阅读 · 2 评论 -
决策树(ID3,C4.5)Python实现
看了《统计学习方法》就尝试写了个简单的决策树,使用信息增益(ID3)或者信息增益率(C4.5),但是没弄好剪枝,自己写的剪枝一剪就只剩根节点和一个叶子节点了,目前只有训练和预测的功能,容易过拟合。原创 2016-06-26 15:24:40 · 1529 阅读 · 0 评论