自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 OpenCV边界填充方法详解

在进行图像处理操作时,特别是卷积类操作(如滤波、边缘检测等),内核(kernel)需要访问目标像素周围邻域的像素值。边界填充就是用来解决这个问题的,它决定了如何处理这些"不存在的"像素值。边界填充是图像处理中不可或缺的技术,OpenCV提供了多种填充方式以适应不同场景。理解各种填充类型的特点和适用场景,能够帮助我们在实际应用中做出更合适的选择,从而提高图像处理的质量和效果。3.默认选择:当不确定时,使用BORDER_DEFAULT(即BORDER_REFLECT_101)

2025-04-02 22:54:57 756

原创 OpenCV的基础操作

这里我们读取一张企鹅图片,运行结果如下,左图为原图,右图为灰度图。

2025-04-01 22:38:34 1006

原创 OpenCV:计算机视觉的强大开源库

OpenCV是一个基于BSD许可的开源计算机视觉和机器学习软件库,最初由Intel于1999年开发,目的是为了促进计算机视觉的研究和商业化应用。经过20多年的发展,OpenCV已经成为计算机视觉领域事实上的标准工具。OpenCV作为计算机视觉领域最强大的开源库之一,为开发者和研究者提供了丰富的工具和算法。无论您是计算机视觉的新手还是专家,OpenCV都能为您的工作提供强有力的支持。随着计算机视觉技术的不断发展,OpenCV也在持续更新,加入对最新算法和硬件的支持。

2025-03-31 22:40:39 1363 1

原创 使用jieba库进行TF-IDF关键词提取

TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的文本挖掘技术,用于评估一个词在文档中的重要程度。词频(TF):一个词在文档中出现的频率逆文档频率(IDF):衡量该词在所有文档中的普遍重要性TF-IDF值越高,表示该词在当前文档中的重要性越高。jieba.load_userdict(r"./红楼梦/红楼梦词库.txt")stopwords = pd.read_csv(r"./红楼梦/StopwordsCN.txt",

2025-03-30 23:28:10 1022

原创 深入理解机器学习之TF-IDF:文本特征提取的核心技术

TF-IDF是一种统计方法,用于评估一个词对于一个文档集或语料库中的某个文档的重要程度。核心思想:一个词在当前文档中出现的频率越高,同时在所有文档中出现的频率越低,则该词对当前文档的代表性越强。词频(TF, Term Frequency):衡量词在文档中出现的频率逆文档频率(IDF, Inverse Document Frequency):衡量词的普遍重要性我们在这里使用六行英文单词数据,数据文件命名为 task2_1.txt。

2025-03-28 22:26:05 1041

原创 机器学习之DBSCAN算法详解

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。DBSCAN是一种强大的基于密度的聚类算法,能够识别任意形状的簇并有效处理噪声数据。尽管它对参数选择敏感且在高维数据中表现不佳,但在许多实际应用中,DBSCAN仍然是一种非常有用的工具。

2025-03-20 22:01:49 1040

原创 机器学习之KMeans算法

KMeans算法是一种基于距离的聚类算法,旨在将数据集划分为K个簇(cluster),使得每个簇内的数据点尽可能相似,而不同簇之间的数据点尽可能不同。KMeans算法的核心思想是通过最小化簇内数据点与簇中心(centroid)之间的距离来实现聚类。KMeans算法的名称中的“K”表示用户指定的簇的数量,而“Means”表示簇的中心是通过计算簇内数据点的均值得到的。KMeans算法是机器学习中最常用的聚类算法之一,具有简单、高效、易于实现的特点。

2025-03-19 20:15:31 1306

原创 机器学习之支持向量机(SVM)算法详解

支持向量机是一种二分类模型,其基本思想是找到一个超平面,将不同类别的数据分隔开,并且使得两类数据点到超平面的距离(即间隔)最大化。SVM不仅可以处理线性可分问题,还可以通过核函数处理非线性可分问题。支持向量机是一种强大且灵活的机器学习算法,适用于多种分类和回归问题。通过核函数,SVM能够处理非线性数据,并在高维空间中表现出色。然而,SVM的训练速度较慢,且对参数选择敏感。在实际应用中,需要根据具体问题选择合适的核函数和参数。希望本文能帮助你更好地理解SVM算法,并为你的机器学习之旅提供帮助!

2025-03-18 23:12:12 1334

原创 机器学习——深入浅出理解朴素贝叶斯算法

要理解朴素贝叶斯,首先要了解它的理论基础——贝叶斯定理。贝叶斯定理描述了在已知某些条件下,某事件发生的概率如何更新。简单来说,就是利用新的信息,不断修正我们对事件的认知。PA∣BPB∣A∗PAPBPA∣BPB∣A∗PAPBP(A|B):在事件 B 发生的条件下,事件 A 发生的概率(后验概率)P(B|A):在事件 A 发生的条件下,事件 B 发生的概率(似然度)P(A):事件 A 发生的先验概率P(B):事件 B 发生的边际概率。

2025-03-17 23:21:27 1546

原创 模型评估——混淆矩阵

混淆矩阵是一种用于评估分类模型性能的表格,它展示了模型预测结果与实际标签之间的关系。通过混淆矩阵,我们可以直观地看到模型在每一类上的表现,从而更好地理解模型的优缺点。混淆矩阵通常用于二分类问题,但也可以扩展到多分类问题。真正例(True Positive, TP):模型正确预测为正类的样本数。假正例(False Positive, FP):模型错误预测为正类的样本数(实际为负类)。真反例(True Negative, TN):模型正确预测为负类的样本数。

2025-03-14 19:55:18 780

原创 机器学习——随机森林(Random Forest)

随机森林是一种基于集成学习(Ensemble Learning)的机器学习算法,属于 Bagging 类型的集成方法。它通过构建多个决策树(Decision Tree)并将它们的预测结果进行集成,从而提高模型的准确性和鲁棒性。随机森林广泛应用于分类、回归以及特征选择等任务。随机森林通过构建多个决策树(Decision Tree)进行集成学习,减少了过拟合风险,提高了预测准确性。但是随机森林的模型较大,存储和预测速度较慢。

2025-03-13 21:31:01 790

原创 机器学习——决策树(Decision Tree)

决策树是一种模仿人类决策过程的机器学习算法,它通过学习简单的决策规则来预测目标变量的值。决策树模型由节点和边组成,形成一个树状结构。树的每个内部节点表示一个特征上的判断,每个边代表判断的结果,而每个叶子节点代表一个类别或决策结果。今天由我来向大家介绍决策树的相关算法以及如何构造和实现决策树。决策树(Decision Tree)是从一组无次序、无规则,但有类别标号的样本集中推导出的、树形表示的分类规则。一般的,一棵决策树包含一个根结点、若干个内部结点(中间结点)和若干个叶子结点。

2025-03-13 13:37:10 1418

原创 机器学习——过采样(OverSampling)

本篇文章我们重点介绍了使用过采样方法来解决不平衡数据集的问题,以保证模型的性能。过采样方法优点:过采样不会删除多数类样本,因此可以保留数据集的完整性。提高少数类的代表性:通过增加少数类样本的数量,模型可以更好地学习少数类的特征。适合小数据集:当数据集较小时,过采样可以有效增加样本数量,避免模型欠拟合。缺点:增加计算复杂度:过采样会增加数据集的大小,导致模型训练时间变长。可能生成噪声样本:过采样方法(如 SMOTE)可能会生成不合理的样本,影响模型性能。

2025-03-12 22:22:19 855

原创 机器学习——下采样方法(under-sampling)

本篇文章我们重点介绍了使用下采样方法来解决不平衡数据集的问题,以保证模型的性能。并且通过下采样之后的模型预测性能召回率很不错。但也存在着一些问题,比如在下采样方法整理数据时,我们将多的类样本数据删除至与少的类样本数相同,这样做可能会使一些重要的数据被删除,使得模型的性能不是很好。所以使用下采样方法时可能也会时模型的性能下降。

2025-03-12 21:17:42 1144

原创 机器学习——逻辑回归

本模型要查看的评估指标为recall(召回率)。由结果发现,模型训练集和测试集上的recall值都不是很高,原因是为什么呢?我们发现数据集中正负样本个数相差太大,标签为0的样本有284315个,标签为1的样本数仅仅只有492个。这样的数据集我们称为不平衡数据集,它可能导致模型偏向于多数类,从而影响少数类的预测性能。那么我们该怎么解决这一问题呢?之后的两篇文章我们会采用两种不同方法来解决这类情况。

2025-03-12 16:43:52 1283

原创 sklearn实现多元线性回归

本篇我们重点介绍了多元线性回归模型,在整个实现过程中,可以发现一元线性回归的不同之处在于自变量的个数。多元线性回归中有多个自变量,而一元线性回归只有一个自变量。希望能帮助大家更深刻的理解多元线性回归,并且明白与一元线性回归的区别。

2025-03-11 22:12:13 898

原创 sklearn实现一元线性回归

sklearn(Scikit-learn)是Python中用于机器学习的一个非常流行的库,它提供了大量的算法和工具来构建和评估模型。线性回归是统计学中用于预测一个或多个自变量(特征)和一个因变量(目标)之间线性关系的方法。回归是一种应用广泛的预测建模技术,这种技术的核心在于预测的结果是连续型变量。sklearn中的线性模型模块是linear_model,linear_model包含了多种多样的类和函数,我们使用LinearRegression类来进行线性回归。我们使用的是广告投入与销售额之前关系的数据。

2025-03-11 16:45:34 1286

原创 KNN算法——手写数字识别

OpenCV 是一个功能强大、应用广泛的计算机视觉库,它为开发人员提供了丰富的工具和算法,可以帮助他们快速构建各种视觉应用。本次使用OpenCV库来实现手写数字识别这一案例,模型的准确率达到91.92%,效果还是蛮不错的,并且自己手写一个数字加入检验也能预测正确结果。通过cv2.ml.KNearest_create()函数创建一个knn模型,通过knn.train()方法来训练模型,每个测试数据集中的每个样本都被预测为其最近的3个邻居中多数所属的类别。3.OpenCV的安装方法。1.OpenCV的介绍。

2025-03-10 22:18:23 1026

原创 机器学习入门教学之KNN算法

机器学习的定义很广泛,涉及面很多,其本质概念就是利用数学中的公式,并将其输入到机器中,从而让机器来输出并总结数据中蕴含的规律。K最邻近(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法。

2025-02-28 21:20:43 574 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除