
【 Python相关 】
文章平均质量分 86
haoji007
机器学习爱好者
展开
-
Grid SearchCV(网格搜索)与RandomizedSearchCV (随机搜索)
一、引言在机器学习模型中,需要人工选择的参数称为超参数。比如随机森林中决策树的个数,人工神经网络模型中隐藏层层数和每层的节点个数,正则项中常数大小等等,他们都需要事先指定。超参数选择不恰当,就会出现欠拟合或者过拟合的问题。而在选择超参数的时候,有两个途径,一个是凭经验微调,另一个就是选择不同大小的参数,带入模型中,挑选表现最好的参数。微调的一种方法是手工调制超参数,直到找到一个好的超参数组合,这么做的话会非常冗长,你也可能没有时间探索多种组合,所以可以使用Scikit-Learn的GridSearc.转载 2021-03-29 16:56:07 · 6280 阅读 · 0 评论 -
数据分析:使用Imblearn处理不平衡数据(过采样、欠采样)
现实环境中,采集的数据(建模样本)往往是比例失衡的。比如网贷数据,逾期人数的比例是极低的(千分之几的比例)。对于这样的数据很难建立表现好的模型。好在Python有Imblearn包,它就是为处理数据比例失衡而生的。一.安装Imblearn包pip3 install imblearn二.过采样正样本严重不足,那就补充正样本。使用imblearn包中的over_sampling进行过采样有如下几种方法。1.随机过采样#使用make_classification生成样本数据from sklear转载 2021-03-18 23:33:46 · 2818 阅读 · 0 评论 -
Python--matplotlib绘图可视化知识点整理
原文:http://michaelxiang.me/2016/05/14/python-matplotlib-basic/无论你工作在什么项目上,IPython都是值得推荐的。利用ipython --pylab,可以进入PyLab模式,已经导入了matplotlib库与相关软件包(例如Numpy和Scipy),额可以直接使用相关库的功能。本文作为学习过程中对matplotlib一些常用知识点的整理,方便查找。这样IPython配置为使用你所指定的matplotlib GUI后端(TK/wxPyt转载 2021-03-01 20:13:29 · 334 阅读 · 0 评论 -
matplotlib的绘图样式与色彩设置
登录/注册绘图样式与色彩设置目录一、matplotlib的绘图样式(style) 1.matplotlib预先定义样式 2.用户自定义stylesheet 3.设置rcparams 4.修改matplotlibrc文件 二、matplotlib的色彩设置(color) 1.RGB或RGBA 2.HEX RGB 或 RGBA 3.灰度色阶 4.单字符基本颜色 5.颜色名称 6.使用colormap设置一组颜色 一、matplotlib的...转载 2021-03-01 20:10:38 · 9688 阅读 · 0 评论 -
TSNE数据降维
1、TSNE的基本概念2、例1 鸢尾花数据集降维3、例2 MINISET数据集降维1、TSNE的基本概念t-SNE(t-distributed stochastic neighbor embedding)是用于降维的一种机器学习算法,是由 Laurens van der Maaten 等在08年提出来。此外,t-SNE 是一种非线性降维算法,非常适用于高维数据降维到2维或者3维,进行可视化。该算法可以将对于较大相似度的点,t分布在低维空间中的距离需要稍小一点;而对于低相似度的点,...转载 2021-01-12 00:35:34 · 9285 阅读 · 2 评论 -
matplotlib中文乱码的两种解决方案
前言最近在搞数据可视化的一些案例,特地来把学习过程中遇到的一些小问题记录一下。今天遇到一个问题就是:当我给坐标轴添加一些中文内容以便客户查看时,出现了乱码,接下来我就通过两种方法对乱码的问题做一下解释。中文乱码的解决方案01-出错原因我们先来看一段简单的演示代码: import matplotlib.pyplot as plt import numpy as np x = np.linspace(0.05,10,1000) y = n...转载 2021-01-04 19:43:28 · 3359 阅读 · 2 评论 -
Python numpy中矩阵的用法总结
Python矩阵的基本用法 mat()函数将目标数据的类型转化成矩阵(matrix)1,mat()函数和array()函数的区别 Numpy函数库中存在两种不同的数据类型(矩阵matrix和数组array),都可以用于处理行列表示的数字元素,虽然他们看起来很相似,但是在这两个数据类型上执行相同的数学运算可能得到不同的结果,其中Numpy函数库中的matrix与MATLAB中matrices等价。 直接看一个例子: 1 2 3 4 5 6转载 2020-08-25 10:57:04 · 2423 阅读 · 0 评论 -
face_recognition基础接口
face_recognition使用世界上最简单的人脸识别库,在Python或命令行中识别和操作人脸。使用dlib最先进的人脸识别技术构建而成,并具有深度学习功能。 该模型在Labeled Faces in the Wild基准中的准确率为99.38%。face_recognition 官方文档:https://pypi.org/project/face_recognition/ 1|1查找图片中的面孔 1 2 3 4 5...转载 2020-05-29 03:30:14 · 4254 阅读 · 0 评论 -
Python数据分析之pandas常用命令整理!
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。导入pandas库:import pandas as pd导入Series, DataFrame:from pandas import Series, DataFramepanda转载 2020-07-05 21:34:54 · 998 阅读 · 0 评论 -
python实现图像检索的三种(直方图/OpenCV/哈希法)
这篇文章主要介绍了python实现图像检索的三种(直方图/OpenCV/哈希法),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧简介:本文介绍了图像检索的三种实现方式,均用python完成,其中前两种基于直方图比较,哈希法基于像素分布。检索方式是:提前导入图片库作为检索范围,给出待检索的图片,将其与图片库中的图片进行比较,得出所有相似度后进行排序,从而检索结果为相似度由高到低的图片。由于工程中还包含Qt界面类、触发函数等其.转载 2020-05-27 23:40:23 · 2356 阅读 · 0 评论 -
Python破解验证码,只要15分钟就够了!
让我们一起攻破世界上最流行的WordPress的验证码插件每个人都讨厌验证码——在你被允许访问一个网站之前,你总被要求输入那些烦人的图像中所包含的文本。验证码被设计成,以验证你是一个真正的人的方式,来防止电脑自动填写表单。但是随着深度学习和计算机视觉的兴起,它们现在往往很容易被攻破。我在读Adrian Rosebrock的优秀的著作《Python计算机视觉深度学习》。在书中,Adrian简单地描述了他如何用机器学习绕过E-ZPass New York网站的验证码:Adrian没有访...转载 2020-05-27 01:10:39 · 2372 阅读 · 0 评论 -
Python图像识别,图片相似度计算!
1.背景要识别两张图片是否相似,首先我们可能会区分这两张图是人物照,还是风景照等......对应的风景照是蓝天还是大海......做一系列的分类。从机器学习的的角度来说,首先要提取图片的特征,将这些特征进行分类处理,训练并建立模型,然后在进行识别。但是让计算机去区分这些图片分别是哪一类是很不容易的,不过计算机可以知道图像的像素值的,因此,在图像识别过程中,通过颜色特征来识别是相似图片是我们常用的(当然还有其特征还有纹理特征、形状特征和空间关系特征等,这些有分为直方图,颜色集,颜色局,聚合向量,相转载 2020-05-27 00:21:12 · 5925 阅读 · 3 评论 -
图像检索系列——利用 Python 检测图像相似度!
前言最近在做一个海量图片检索的项目,可以简单的理解为“以图搜图”,这个功能一开始是搜索引擎带火的,但是后来在电商领域变得非常实用。在制作这个图片检索的项目前,笔者搜索了一些资料,如今项目临近结尾,便在这里做一些简单的分享。本文先介绍图像检索最基础的一部分知识——利用 Python 检测图像相似度。提到检测“某某”的相似度相信很多人第一想法就是将需要比较的东西构建成两个向量,然后利用余弦相似度来比较两个向量之间的距离,这种方法应用很广泛,例如比较两个用户兴趣的相似度、比较两个文本之间的相似度。但是这个转载 2020-05-26 10:12:19 · 3231 阅读 · 0 评论 -
Python图像识别,图片相似度计算!
1.背景要识别两张图片是否相似,首先我们可能会区分这两张图是人物照,还是风景照等......对应的风景照是蓝天还是大海......做一系列的分类。从机器学习的的角度来说,首先要提取图片的特征,将这些特征进行分类处理,训练并建立模型,然后在进行识别。但是让计算机去区分这些图片分别是哪一类是很不容易的,不过计算机可以知道图像的像素值的,因此,在图像识别过程中,通过颜色特征来识别是相似图片是我们常用的(当然还有其特征还有纹理特征、形状特征和空间关系特征等,这些有分为直方图,颜色集,颜色局,聚合向量,相转载 2020-05-26 00:21:28 · 4174 阅读 · 0 评论 -
Win10+caffe+CUDA9.1+vs2013+Matlab2018b+GPU环境,跑通faster_rcnn-master
Win10+caffe+CUDA9.1+vs2013+Matlab2018b+GPU环境,跑通faster_rcnn-master一.软件安装因为我用的Matlab2018b是目前最新版本的Matlab,所以在网上能找到的配置环境参考案例很少,几乎没有对应的。所以就自己沉下心来参考以前的版本来自己配置环境。首先我装的是CUDA9.1,主要是因为Matlab2018b所需的版本至少是(...转载 2020-03-05 01:15:54 · 386 阅读 · 0 评论 -
(复制python包,产生的问题) pip Fatal error in launcher: Unable to create process using
今天把Python的安装位置也从C盘剪切到了D盘,然后修改了Path环境变量中对应的盘符:D:\Python27\;D:\Python27\Scripts;不管是在哪个目录,Python可以执行了,但是执行Pip的时候就出错了!D:\Python27\Scripts>pipFatal error in launcher: Unable to create process usi...转载 2020-02-27 21:01:48 · 429 阅读 · 0 评论 -
SLIC算法分割超像素原理及Python、C++
超像素(SuperPixel),就是把原本多个像素点,组合成一个大的像素。比如,原本的图片有二十多万个像素,用超像素处理之后,就只有几千个像素了。后面做直方图等处理就会方便许多。经常作为图像处理的预处理步骤。在超像素算法方面,SLIC Superpixels Compared to State-of-the-art Superpixel Methods这篇论文非常经典。论文中从算法效率,内...转载 2019-12-07 23:31:06 · 2766 阅读 · 1 评论 -
SLIC超像素分割的算法介绍和源码分析(C++)
前述最近在看显著性检测,发现很多算法的基础是超像素分割,而正在看的Saliency Optimization from Robust Background Detection算法的预处理是SLIC算法,于是便找了SLIC算法的论文进行学习,在学习过程中也顺便翻译了论文:http://blog.youkuaiyun.com/zhj_matlab/article/details/52973723。论文也给出了...转载 2019-12-07 11:19:45 · 2803 阅读 · 2 评论 -
Python 自带slic代码分析
一.python中的slic函数 def slic(image, n_segments=100, compactness=10., max_iter=10, sigma=0, spacing=None, multichannel=True, convert2lab=None, enforce_connectivity=True, min_size_fac...转载 2019-12-07 10:49:45 · 2605 阅读 · 1 评论 -
Python实现超像素分割
目录 一、什么是超像素? 二、超像素具有哪些特点? 三、Simple Linear Iterative Clustering (SLIC)算法实现步骤 四、SLIC算法代码实现 五、效果展示和分析 六、基于超像素的边缘检测代码 七、基于超像素的边缘检测效果展示与分析 八、思维扩展 参考资料 注意事项 一、什么是超像素? 超像素概念是2003...转载 2019-12-07 10:44:49 · 6576 阅读 · 1 评论 -
图像处理: 超像素(superpixels)分割 SLIC算法
简介:最近项目使用到了超像素分割,因此顺道研究了以下SLIC这一算法。超像素分割这类low-level vision问题已经在CVPR,ICCV这种顶级会议上逐渐销声匿迹,越来越流行的learning method渐渐占据了这些顶级会议90%的篇幅。本文讲解的SLIC是2010年提出的一种十分简单的超分辨分割算法,原理简单、便于实现。一.SLIC(simple linear iter...转载 2019-12-07 10:27:14 · 21602 阅读 · 10 评论 -
SLIC超像素分割详解(一)(二)(三)
SLIC超像素分割详解(一):简介超像素概念是2003年Xiaofeng Ren提出和发展起来的图像分割技术,是指具有相似纹理、颜色、亮度等特征的相邻像素构成的有一定视觉意义的不规则像素块。它利用像素之间特征的相似性将像素分组,用少量的超像素代替大量的像素来表达图片特征,很大程度上降低了图像后处理的复杂度,所以通常作为分割算法的预处理步骤。已经广泛用于图像分割、姿势估计、目标跟踪、目标识别等计...转载 2019-12-07 10:13:17 · 15374 阅读 · 2 评论 -
sklearn库的学习
网上有很多关于sklearn的学习教程,大部分都是简单的讲清楚某一个方面。其实最好的教程就是官方文档(http://scikit-learn.org/stable/),但是官方文档讲述的太过于详细,同时很多人对官方文档的理解和结构认识上都不能很好的把握。我写这篇文章的目的是想用一篇文章讲清楚整个sklearn库,我会讲清楚怎么样用这个库,而不是讲清楚每一个知识点。(授人以鱼不如授人以渔)(本文很多...转载 2019-12-02 00:41:44 · 819 阅读 · 0 评论 -
sklearn学习(模块列表)
sklearn主要实现功能(大的模块分类)http://scikit-learn.org/stable/index.html 首页列表中显示A. classification (分类)B. regression(回归)C. Clustering(聚类)D. dimensionality reduction(降低维度)E. model selection(模型选择)...转载 2019-12-02 00:39:13 · 379 阅读 · 0 评论 -
python matplotlib 绘图操作
文章目录坐标操作 对数坐标轴 坐标刻度及其标记 横坐标值逆序显示 边框操作 隐藏边框 图例操作 图例置于边框外 标题操作 标题位置 注释操作 注释字体 配色操作 饼图颜色 子图操作 子图间距 坐标操作参考博文Python绘图总结(Matplotlib篇)之坐标轴及刻度对数坐标轴import numpy as n...转载 2019-11-23 23:15:27 · 1701 阅读 · 0 评论 -
sklearn 模型选择和评估
一、模型验证方法如下:通过交叉验证得分:model_sleection.cross_val_score(estimator,X) 对每个输入数据点产生交叉验证估计:model_selection.cross_val_predict(estimator,X) 计算并绘制模型的学习率曲线:model_selection.learning_curve(estimator,X,y) 计算并绘制模...转载 2019-11-19 14:13:04 · 746 阅读 · 0 评论 -
30分钟学会用scikit-learn的基本回归方法(线性、决策树、SVM、KNN)和集成方法(随机森林,Adaboost和GBRT)
注:本教程是本人尝试使用scikit-learn的一些经验,scikit-learn真的超级容易上手,简单实用。30分钟学会用调用基本的回归方法和集成方法应该是够了。本文主要参考了scikit-learn的官方网站前言:本教程主要使用了numpy的最最基本的功能,用于生成数据,matplotlib用于绘图,scikit-learn用于调用机器学习方法。如果你不熟悉他们(我也不熟悉),没关系,...转载 2019-11-13 19:54:45 · 396 阅读 · 0 评论 -
Python进行特征提取
# -*- coding: utf-8 -*-"""Created on Mon Aug 21 10:57:29 2017@author: 飘的心"""#过滤式特征选择#根据方差进行选择,方差越小,代表该属性识别能力很差,可以剔除from sklearn.feature_selection import VarianceThresholdx=[[100,1,2,3], [1...转载 2019-11-13 19:49:40 · 1286 阅读 · 0 评论 -
Python机器学习库sklearn自动特征选择(训练集)
1.单变量分析from sklearn.feature_selection import SelectPercentile%matplotlib inlineimport numpy as npfrom sklearn.datasets import load_breast_cancerfrom sklearn.feature_selection import SelectPerc...转载 2019-11-13 19:47:38 · 2628 阅读 · 0 评论 -
基于sklearn分析特征工程(特征预处理、特征选择、降维)
特征工程目的:降维/降低过拟合/泛化、解释性、加快训练速度、性能特征工程框图:数据预处理无量纲化:转化不同规格的特征到同一规格(1)标准化/z标准化将符合正态分布的特征值转化为标准正态分布使用sklearn.preproccessing库的StandardScaler类(2)区间缩放法/线性归一化/0-1标准化返回缩放到[...转载 2019-11-13 19:43:16 · 489 阅读 · 0 评论 -
应用scikit-learn做文本分类
文本挖掘的paper没找到统一的benchmark,只好自己跑程序,走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类(最好要所有类分类结果,全部或取部分特征无所谓)麻烦留言告知下现在的benchmark,万谢!嗯,说正文。20newsgroups官网上给出了3个数据集,这里我们用最原始的20news-19997.tar.gz。分为以下几个过程:...转载 2019-11-13 09:54:11 · 163 阅读 · 0 评论 -
利用sklearn进行豆瓣电影评论的文本分类
在之前,我已经在豆瓣电影top250中爬取了约6w条好评和差评,在此我们来利用这些数据,进行入门级别的文本分类。一 数据清洗 数据在豆瓣电影top250提供下载,下载后能看到6W条好评和差评,由于爬取时未能完全清除符号,导致一部分毫无意义的颜文字评论混入其中,为了清除这些数据,我在(仅当数据量较小的情况下)excel中替换掉了肉眼可见的一些符号,然后转换成xlsx格式(csv...转载 2019-11-13 09:48:53 · 1438 阅读 · 1 评论 -
sklearn实例-用支持向量机分类器(SVC)识别手写字体
简介支持向量机(Support Vector Machine)作为机器学习中最常用的算法之一,有着非常强大的性能。SVM既可以用来分类,即SVC(Support Vector Classifier);也可以用来预测(回归),那就是SVR(Support Vector Regression)。sklearn中的svm模块中同时集成了SVC和SVR。SVC,中文可称做支持向量机分类器,也被...转载 2019-11-13 00:15:35 · 2038 阅读 · 1 评论 -
决策树的sklearn实现及其GraphViz可视化
这一部分,我使用了sklearn来调用决策树模型对葡萄酒数据进行分类。在此之外,使用Python调用AT&T实验室开源的画图工具GraphViz软件以实现决策树的可视化。from sklearn.datasets import load_irisfrom sklearn import treefrom sklearn.externals.six import StringIOi...转载 2019-11-12 23:53:36 · 2768 阅读 · 0 评论 -
调用sklearn库--分类学习
在《python机器学习及实践》一书的学习中,小豆桑发现似乎一些学习算法由于要调用库,会有类似的过程,于是记录下来,以便时间长后的查阅。1. 数据预处理这是一个非常复杂的过程,实际应用中可能大量时间都用在数据收集清理上。此处简单举例,使用pandas来读取数据。Read CSV (comma-separated) file into DataFrame把以逗号分隔的数据读入数据列表da...转载 2019-11-12 22:50:12 · 461 阅读 · 0 评论 -
sklearn库各个算法学习笔记
knn 算法(1)参数:邻居个数参距离标准(2)适用数据集:适用小的数据集(特征数量少数据量小)(3)优点:训练速度快不用太多调整(4)缺点:对特征量大数据量大的速度慢效果差(5)泛化能力:较差线性模型(1)参数:L1和L2参数正则化参数(2)适用数据集:适用于大数据集(特征量大,数据量大,如果特征数量大于数据数量能有好结果,对数据维度要求高一...转载 2019-11-12 22:29:40 · 489 阅读 · 0 评论 -
Python Sklearn.metrics 简介及应用示例(机器学习各种评价指标)
用Python进行各种机器学习算法的实现时,经常会用到sklearn(scikit-learn)这个模块/库。无论利用机器学习算法进行回归、分类或者聚类时,评价指标,即检验机器学习模型效果的定量指标,都是一个不可避免且十分重要的问题。因此,结合scikit-learn主页上的介绍,以及网上大神整理的一些资料,对常用的评价指标及其实现、应用进行简单介绍。一、 scikit-learn安装...转载 2019-11-12 22:26:49 · 5391 阅读 · 0 评论 -
sklearn--各分类算法简单应用
KNNfrom sklearn.neighbors import KNeighborsClassifierimport numpy as npdef KNN(X,y,XX):#X,y 分别为训练数据集的数据和标签,XX为测试数据 model = KNeighborsClassifier(n_neighbors=10)#默认为5 model.fit(X,y) ...转载 2019-11-12 21:16:51 · 544 阅读 · 1 评论 -
十行代码训练sklearn七种分类算法
本文链接:https://blog.youkuaiyun.com/Vapor_/article/details/80625988依赖的python库os time sklearn numpy简易demofrom sklearn import datasetsfrom classify import ClassfyMethodsfrom sklearn.model_selection ...转载 2019-11-12 21:04:53 · 700 阅读 · 0 评论 -
Python机器学习库sklearn几种分类算法建模可视化(实验)
sklearn官网API查询http://scikit-learn.org/stable/modules/classes.htmlscikit-learn中自带了一些数据集,比如说最著名的Iris数据集。数据集中第3列和第4列数据表示花瓣的长度和宽度,类别标签列已经转成了数字,比如0=Iris-Setosa,1=Iris-Versicolor,2=Iris-Virginica....转载 2019-11-12 20:56:46 · 3129 阅读 · 0 评论