
机器学习
文章平均质量分 95
落痕的寒假
这个作者很懒,什么都没留下…
展开
-
[图像处理] 基于CleanVision库清洗图像数据集
CleanVision支持多种格式示例图片问题类型描述关键字完全重复完全相同的图像近似重复视觉上几乎相同的图像模糊图像细节模糊(焦点不实)blurry信息量低缺乏内容的图像(像素值的熵很小)过暗不规则的暗图像(曝光不足)dark过亮不规则的亮图像(曝光过度)light灰度缺乏颜色的图像grayscale异常宽高比宽高比异常的图像异常大小相比数据集中其他图像,尺寸异常的图像odd_size。原创 2024-10-24 10:36:25 · 1759 阅读 · 0 评论 -
[python] 基于PyOD库实现数据异常检测
PyOD作者发布了一份长达45页的预印论文,名为ADBench: Anomaly Detection Benchmark,以及提供ADBench开源仓库对30种异常检测算法在57个基准数据集上的表现进行了比较。ADBench结构图如下所示:。pyod.models.base.BaseDetector.fit():训练模型,对于无监督方法,目标变量y将被忽略。pyod.models.base.BaseDetector.decision_function():使用已训练的检测器预测输入数据的异常分数。原创 2024-10-01 10:50:20 · 1866 阅读 · 0 评论 -
[机器学习] 低代码机器学习工具PyCaret库使用指北
PyCaret是一个开源、低代码Python机器学习库,能够自动化机器学习工作流程。它是一个端到端的机器学习和模型管理工具,极大地加快了实验周期,提高了工作效率。PyCaret本质上是围绕几个机器学习库和框架(如scikit-learn、XGBoost、LightGBM、CatBoost、spaCy、Optuna、Hyperopt、Ray等)的Python包装器,与其他开源机器学习库相比,PyCaret可以用少量代码取代数百行代码。。原创 2024-06-01 09:24:52 · 1240 阅读 · 0 评论 -
[python] 向量检索库Faiss使用指北
Faiss是一个由facebook开发以用于高效相似性搜索和密集向量聚类的库。它能够在任意大小的向量集中进行搜索。它还包含用于评估和参数调整的支持代码。Faiss是用C++编写的,带有Python的完整接口。一些最有用的算法是在GPU上实现的。。所谓相似性搜索是指通过比较多维空间中数据之间的相似性来搜索与输入数据最相似的目标数据。例如人脸识别中,通过比较人脸向量之前的距离来识别当前人脸与哪张人脸相似。因此,该技术被广泛应用于信息检索、计算机视觉、数据分析等领域。。...原创 2022-07-21 11:42:08 · 15222 阅读 · 2 评论 -
[深度学习] CCPD车牌数据集介绍
CCPD是一个大型的、多样化的、经过仔细标注的中国城市车牌开源数据集。CCPD数据集主要分为CCPD2019数据集和CCPD2020(CCPD-Green)数据集。CCPD2019数据集车牌类型仅有普通车牌(蓝色车牌),CCPD2020数据集车牌类型仅有新能源车牌(绿色车牌)。在CCPD数据集中,每张图片仅包含一张车牌,车牌的车牌省份主要为皖。CCPD中的每幅图像都包含大量的标注信息,但是CCPD数据集没有专门的标注文件,每张图像的文件名就是该图像对应的数据标注。标注最困难的部分是注释四个顶点的位置。为了原创 2021-06-09 19:03:20 · 62164 阅读 · 77 评论 -
[常用工具] dlib编译调用指南
dlib是一个C++工具包(DLIB中也有Python接口,但是主要编程语言为C++),包含绝大多数常用的机器学习算法,许多图像处理算法和深度学习算法,被工业界和学术界广泛应用于机器人、嵌入式设备、移动电话和大型高性能计算环境等领域。dlib的开源许可允许您在任何应用程序中免费使用它。在工程实践中,dlib通常和OpenCV结合使用,OpenCV提供图像处理算法,dlib提供机器学习算法。对于从事计算机视觉行业的人,非常推荐学习使用dlib。本文主要讲述dlib在Windows(win10)和linux(u原创 2021-04-23 20:07:59 · 4946 阅读 · 0 评论 -
[机器学习] Yellowbrick使用笔记8-模型选择可视化
Yellowbrick可视化工具旨在指导模型选择过程。一般来说,模型选择是一个搜索问题,定义如下:给定N个由数值属性描述的实例和(可选)一个估计目标,找到一个由特征、算法和最适合数据的超参数组成的三元组描述的模型。在大多数情况下,“最佳”三元组是指收到模型类型的最佳交叉验证分数的三元组。代码下载Yellowbrick.model_select包提供了可视化工具,用于检查交叉验证和超参数调优的性能。许多可视化工具包装sklearn.model_select和其他工具中的功能,用于执行多模型比较。当前实原创 2020-07-25 11:36:00 · 791 阅读 · 0 评论 -
[机器学习] Yellowbrick使用笔记7-聚类可视化
聚类模型是试图检测未标记数据中模式的无监督方法。聚类算法主要有两类:聚集聚类将相似的数据点连接在一起,而质心聚类则试图在数据中找到中心或分区。Yellowbrick提供yellowbrick.cluster用于可视化和评估群集行为的模块。目前,我们提供了几种可视化工具来评估质心机制,特别是K均值聚类,帮助我们发现聚类度量中的最佳K参数。代码下载主要方法如下:Elbow Method:根据某个评分函数对聚类进行可视化,在曲线中寻找“Elbow”。Silhouette Visualize:在一个模型中原创 2020-07-25 11:16:44 · 3664 阅读 · 0 评论 -
[机器学习] Yellowbrick使用笔记6-分类可视化
分类模型试图在一个离散的空间中预测一个目标,即为一个因变量实例分配一个或多个类别。代码下载分类分数可视化工具显示类之间的差异以及一些特定于分类器的可视化评估。我们目前已经实施了以下分类器评估:分类报告Classification Report:视觉分类报告,将每个类别的精度,召回率和F1显示为热图。混淆矩阵Confusion Matrix:多类分类中混淆矩阵的热图视图。ROCAUC: 绘制训练器的工作特性和曲线下面积Precision-Recall曲线:绘制不同概率阈值的精度和召回率。类平衡原创 2020-07-25 11:04:08 · 1880 阅读 · 0 评论 -
[机器学习] Yellowbrick使用笔记5-回归可视化
回归模型试图预测连续空间中的目标。回归计分可视化工具显示模型空间中的实例,以便更好地理解模型是如何进行预测的。我们目前已经实施了三种回归评估:残差图Residuals Plot:绘制期望值与实际值之间的差预测误差图Prediction Error Plot:在模型空间中绘制期望值与实际值alpha选择:视觉调整正则化超参数库克距离Cook’s Distance:描述了单个样本对整个回归模型的影响程度Estimator score Visualizer包装Scikit Learn estimat原创 2020-07-25 10:49:30 · 1533 阅读 · 0 评论 -
[机器学习] Yellowbrick使用笔记4-目标可视化
目标可视化工具专门用于直观地描述用于监督建模的因变量,通常称为y目标。代码下载当前实现了以下可视化:平衡箱可视化Balanced Binning:生成带有垂直线的直方图,垂直线显示推荐值点,以将数据装箱到均匀分布的箱中。类平衡Class Balance:可视化来检查目标,以显示每个类对最终估计器的支持。特征相关Feature Correlation:绘制特征和因变量之间的相关性。文章目录1 平衡箱可视化Balanced Binning1.1 基本使用1.2 快速方法2 类平衡Class Ba原创 2020-07-25 10:31:35 · 1057 阅读 · 0 评论 -
[机器学习] Yellowbrick使用笔记3-特征分析可视化
特征分析可视化工具设计用于在数据空间中可视化实例,以便检测可能影响下游拟合的特征或目标。因为ML操作高维数据集(通常至少35个),可视化工具将重点放在聚合、优化和其他技术上,以提供对数据的概述。这是Yellowbrick的意图,指导过程将允许数据科学家缩放和过滤,并探索他们的实例和维度之间的关系。代码下载目前,我们实现了以下功能分析可视化工具:特征排名Rank Features:对单个特征和成对特征进行排名以检测协方差RadViz Visualizer:沿围绕圆形排列的轴绘制数据点以检测可分离性平原创 2020-07-25 10:16:42 · 1516 阅读 · 0 评论 -
[机器学习] Yellowbrick使用笔记2-模型选择
在本教程中,我们将查看各种Scikit Learn模型的分数,并使用Yellowbrick的可视化诊断工具对它们进行比较,以便为我们的数据选择最佳的模型。文章目录1 使用说明1.1 模型选择三原则1.2 关于数据1.3 特征提取1.4 建模与评估1.4.1 评估分类器的通用指标1.4.2 视觉模型评估2 参考1 使用说明1.1 模型选择三原则关于机器学习的讨论通常以单一的模型选择为特点。不管是logistic回归、随机森林、贝叶斯方法,还是人工神经网络,机器学习的实践者通常很快就能表达他们的偏好。原原创 2020-07-25 09:41:25 · 1088 阅读 · 0 评论 -
[机器学习] Yellowbrick使用笔记1-快速入门
Yellowbrick是一个机器学习可视化库,主要依赖于sklearn机器学习库,能够提供多种机器学习算法的可视化,主要包括特征可视化,分类可视化,回归可视化,回归可视化,聚类可视化,模型选择可视化,目标可视化,文字可视化。本节主要介绍Yellowbrick如何快速使用。文章目录1 使用说明1.1 背景介绍1.2 Yellowbrick简单说明1.3 演练2 yellowbrick数据集3 参考1 使用说明1.1 背景介绍Yellowbrick有两个主要依赖项:scikit-learn和matplo原创 2020-07-25 09:06:26 · 1974 阅读 · 2 评论 -
[机器学习] 特征选择笔记4-使用SelectFromModel特征选择
特征选择代码下载本文主要介绍sklearn中进行特征选择的方法。sklearn.feature_selection模块中的类可用于样本集的特征选择/降维,以提高估计量的准确性得分或提高其在超高维数据集上的性能。文章目录1 SelectFromModel基础使用2 SelectFromModel中不同的特征选择方法2.1 基于L1范式进行特征选择2.2 基于树的特征选择3 参考SelectFromModel 是一个基础分类器,其根据重要性权重选择特征。可与拟合后具有coef_或feature_imp原创 2020-07-09 22:17:51 · 13216 阅读 · 5 评论 -
[机器学习] 特征选择笔记3-递归式特征消除
特征选择代码下载本文主要介绍sklearn中进行特征选择的方法。sklearn.feature_selection模块中的类可用于样本集的特征选择/降维,以提高估计量的准确性得分或提高其在超高维数据集上的性能。递归式特征消除Recursive feature elimination(RFE)给定一个为特征(如线性模型的系数)分配权重的外部估计量,递归特征消除(RFE)就是通过递归地考虑越来越小的特征集来选择特征。首先,对初始特征集训练估计器,通过coef_属性或feature_importance原创 2020-07-09 22:11:59 · 15153 阅读 · 6 评论 -
[机器学习] 特征选择笔记2-单变量特征选择
特征选择代码下载本文主要介绍sklearn中进行特征选择的方法。sklearn.feature_selection模块中的类可用于样本集的特征选择/降维,以提高估计量的准确性得分或提高其在超高维数据集上的性能。单变量特征选择是通过单变量统计检验来选择最好的特征。它可以看作是估计器的预处理步骤。Scikit-learn将特征选择相关功能作为接口进行公开:SelectKBest删除除最高评分外的所有功能SelectPercentile删除除用户指定的最高得分百分比以外的所有特征对每个特征使用通用原创 2020-07-09 22:07:08 · 4654 阅读 · 0 评论 -
[机器学习] 特征选择笔记1-删除低方差的特征
特征选择本文主要介绍sklearn中进行特征选择的方法。sklearn.feature_selection模块中的类可用于样本集的特征选择/降维,以提高估计量的准确性得分或提高其在超高维数据集上的性能。文章目录1 删除低方差的特征2 参考# 多行输出from IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = "all" 1 删除低方差的特征代码下载原创 2020-07-09 21:46:03 · 6361 阅读 · 0 评论 -
[OpenCV实战]29 使用OpenCV实现红眼自动去除
目录1 红眼消除1.1 眼部检测1.2 红眼遮掩1.3 清除瞳孔掩模空洞1.4 红眼修复2 结果与完整代码2.1 结果2.2 代码3 参考在本教程中,我们将学习如何完全自动地从照片中消除红眼。如下图所示:当我们晚上拍摄的照片有红眼效果时,带着血腥眼睛的微笑的人会让人想起德古拉。使用照片编辑工具可以删除红眼,但是需要很长的时间来学习。构建一个可用于各种...原创 2019-05-09 15:30:53 · 4694 阅读 · 0 评论 -
[机器学习]人工鱼群算法
转载于http://blog.youkuaiyun.com/wp_csdn/article/details/545775671、起源 人工鱼群算法是李晓磊等人于2002年在动物群体智能行为研究的基础上提出的一种新型方盛优化算法,该算法根据水域中鱼生存数目最多的地方就是本水域中富含营养物质最多的地方这一特点来模拟鱼群的觅食行为而实现寻优。算法主要利用鱼的三大基本行为:觅食、聚群和追尾行为,采用自上转载 2017-10-28 16:35:28 · 11653 阅读 · 0 评论 -
[机器学习]粒子群算法
转载于http://blog.youkuaiyun.com/xuehuafeiwu123/article/details/52299628其他粒子群算法相关文章:http://blog.youkuaiyun.com/zuochao_2013/article/details/53431767?ref=myread一、 粒子群算法概述粒子群优化算法(PSO)是一种进化计算技术(evolutiona转载 2017-11-01 21:54:49 · 3875 阅读 · 0 评论 -
[机器学习]PCA主成分分析原理分析和Matlab实现方法
转载于http://blog.youkuaiyun.com/guyuealian/article/details/68487833网上关于PCA(主成分分析)原理和分析的博客很多,本博客并不打算长篇大论推论PCA理论,而是用最精简的语言说明鄙人对PCA的理解,并在最后给出用Matlab计算PCA过程的三种方法,方便大家对PCA的理解。 源代码和附件下载地址: http://download.转载 2017-10-26 19:48:40 · 4860 阅读 · 0 评论 -
[机器学习]PCA (主成分分析)详解
转载于https://my.oschina.net/gujianhan/blog/225241一、简介 PCA(Principal Components Analysis)即主成分分析,是图像处理中经常用到的降维方法,大家知道,我们在处理有关数字图像处理方面的问题时,比如经常用的图像的查询问题,在一个几万或者几百万甚至更大的数据库中查询一幅相近的图像。这时,我们通常的方法转载 2017-10-26 16:57:59 · 10079 阅读 · 0 评论 -
[机器学习]集成学习
转载自:https://www.cnblogs.com/GuoJiaSheng/p/4033584.html集成学习:是目前机器学习的一大热门方向,所谓集成学习简单理解就是指采用多个分类器对数据集进行预测,从而提高整体分类器的泛化能力。 我们在前面介绍了。所谓的机器学习就是通过某种学习方法在假设空间中找到一个足够好的函数h逼近f,f是现实数据的分布函数模型,这个近似的函数就是分类器转载 2017-12-08 21:13:51 · 2475 阅读 · 0 评论 -
[机器学习]集成学习简单投票法概率
基于周志华的西瓜书(p.172)解释集成学习简单投票法概率。并参考知乎董豪晨的回答 对于二分类问题y=[−1,1]y=[-1,1],假设错误率为qq,且真实集函数表达为f(x)f(x)原创 2017-12-10 20:00:43 · 8115 阅读 · 0 评论 -
[sklearn]聚类:K-Means算法/层次聚类/密度聚类/聚类评估
聚类(Clustering)简单来说就是一种分组方法,将一类事物中具有相似性的个体分为一类,将另一部分比较相近的个体分为另一类。例如人和猿都是灵长目动物,但是根据染色体数目不同可以将人和猿分类不同的两类。虽然人根据肤色又可以分为黄种人,白种人,有色种人,但是根据行为举止和形态,往往把黄种人,白种人等归于人这一大类。K-Means 算法K-Means算法是聚类中一种非常常用的算法。具体步骤如下:从n...原创 2018-04-17 22:17:42 · 8135 阅读 · 0 评论 -
[sklearn]分类算法朴素贝叶斯算法
朴素贝叶斯算法是来利用统计学中的条件概率来进行分类的一种算法。贝叶斯定理和特征条件独立假设就是朴素贝叶斯的两个重要理论基础。贝叶斯定理贝叶斯定理如下:因此上述的公式可以变为朴素贝叶斯计算P(B)计算公式如下,由公式可知P(B)为标准化常量,因此P(B)在朴素贝叶斯概率计算中可以省略。因为朴素贝叶斯算法是分类算法,通过比较各个情况发生下的概率的大小,来确定最后的分类,去掉P(B)不影响最后结果。$$...原创 2018-04-19 00:35:22 · 4198 阅读 · 0 评论 -
[sklearn]决策树、随机森林、隐马尔可夫模型
决策树决策树(Decision Tree)是一种用于处理分类和回归问题的无监督学习算法。如下图所示为某女青年在某相亲网站的相亲决策图。这幅图描述的都是一个非常典型的决策树模型。通过对其相亲决策的分析,假设其相亲信息如下所示:该女青年相亲决策主要考虑到因素有年龄,身高,年收入,学历。同事由该女青年的相亲决策图可以看到,相亲决策树以年龄与35岁相比作为树根。但是其他的数据项也能做树根。因此选择合适的数...原创 2018-04-19 23:36:16 · 6435 阅读 · 3 评论 -
[sklearn]支持向量机
支持向量机SVM(Support Vector Machine)市一中用来进行模式识别、分类、回归的机器学习模型。SVM原理描述模型表示以一个客户好坏分类为案例,客户信息如下所示:客户信息数轴表示如下所示:以数学表达式对上述信息进行描述,可以用下式进行表示:然而该方法对于大型数据集容易发生拟合,且过于复杂。因此可以忽略一些点,进行一刀切,如下所示:但是该方法容易导致错分率高。因此SVM就是找一种方...原创 2018-04-21 11:20:45 · 2651 阅读 · 0 评论 -
[常用工具]深度学习Caffe处理工具
目录1 Caffe数据集txt文本制作2 jpg图像完整性检测3 图像随机移动复制4 图像尺寸统计5 图像名字后缀重命名6两文件夹文件比对7绘制caffe模型的ROC曲线(二分类)对于机器学习、图像处理有时要对图像数据进行分割处理。用python写了一些常用小工具代码。1 Caffe数据集txt文本制作很多时候要建立如下数据集txt文本,类似图片所示(图...原创 2019-01-21 15:06:59 · 2917 阅读 · 0 评论 -
[Caffe]Caffe ssd常见问题集合
1Check failed: a <= b <0 vs -1.19209e-007>网上办法是注释掉 CHECK_LE(a, b),但是这样会出大问题。解决办法见2。如果注释掉 CHECK_LE(a, b) 会出现Data layer prefetch queue empty不注释CHECK_LE(a, b) 会出现错误 a可能大于b2training err...原创 2019-03-12 10:54:11 · 3376 阅读 · 0 评论 -
[OpenCV实战]7 使用YOLOv3和OpenCV进行基于深度学习的目标检测
目录1 YOLO介绍1.1 YOLOv3原理1.2 为什么要将OpenCV用于YOLO?1.3 在Darknet和OpenCV上对YOLOv3进行速度测试2 使用YOLOv3进行对象检测(C++/Python)2.1 模型及配置文件下载2.2 初始化参数2.3 加载模型和获取输入图像2.4 单帧图像处理2.4.1 获取输出层的名称2.4.2 处理网络的输...原创 2019-03-13 17:37:53 · 14174 阅读 · 34 评论 -
[OpenCV实战]21 使用OpenCV的Eigenface
目录1 PCA1.1 方差是什么1.2 什么是PCA1.3 什么是矩阵的特征向量和特征值?1.4 如何计算PCA2 什么是EigenFaces?2.1 将图像作为向量2.2 如何计算如何计算EigenFaces3 使用OpenCV进行主成分分析(PCA)4 参考在这篇文章中,我们将学习Eigenface(特征脸),主成分分析(PCA)在人脸中的应用。...原创 2019-04-23 19:48:31 · 4832 阅读 · 0 评论 -
[OpenCV实战]22 使用EigenFaces进行人脸重建
目录1 背景1.1 什么是EigenFaces?1.2 坐标的变化2面部重建2.1 计算新面部图像的PCA权重2.2使用EigenFaces进行面部重建3 参考在这篇文章中,我们将学习如何使用EigenFaces实现人脸重建。我们需要了解主成分分析(PCA)和EigenFaces。1 背景1.1 什么是EigenFaces?在我们之前的文章中,我们解...原创 2019-04-24 16:31:50 · 4967 阅读 · 10 评论 -
[机器学习]t-SNE聚类算法实践指南
转载于https://yq.aliyun.com/articles/70733作者介绍:Saurabh.jaju2 Saurabh是一名数据科学家和软件工程师,熟练分析各种数据集和开发智能应用程序。他目前正在加州大学伯克利分校攻读信息和数据科学硕士学位,热衷于开发基于数据科学的智能资源管理系统。Linkedin:https://in.linkedin.com/in/saurabh转载 2017-10-27 20:43:44 · 4044 阅读 · 0 评论