自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 交叉验证--day07

在传统的K折交叉验证(K-Fold Cross-Validation)中,数据集被随机分成K个子集(折),然后进行K次训练与验证,每次用K-1个折作为训练集,剩下的一个折作为验证集。K折交叉验证(K-Fold Cross-Validation)是最常用的一种交叉验证方法,它通过将数据集划分为 K 个相等大小的子集(折叠,fold),在不同的折叠上进行多次训练和测试,以更全面地评估模型的性能。K折交叉验证是评估和选择模型的标准方法,特别是在没有单独的验证集或测试集的情况下,它能提供更可靠的模型性能估计。

2024-08-10 17:38:01 1356

原创 KNN算法(距离度量、归一化标准化)--day06

其中p≥1 是闵可夫斯基指数。切比雪夫距离(Chebyshev distance),也称为棋盘距离或无限范数距离,是在几何空间中计算两点之间的距离的一种方法,它使用的度量方式是各坐标数值差的绝对值的最大值。闵可夫斯基距离是一种重要的距离度量方法,能够根据p的值在曼哈顿距离和欧氏距离之间进行平滑过渡,并且可以适应不同的数据特性和应用需求。闵可夫斯基距离(Minkowski distance)是一种通用的距离度量方法,可以统一描述曼哈顿距离和欧氏距离,并且可以根据参数p的不同取值,适应不同类型的数据和问题。

2024-08-08 22:03:12 2581

原创 KNN(K-近邻算法)(上)--day05

这与参数化方法相对,参数化方法假设数据服从特定的分布形式,并且基于这些假设推断模型参数。总的来说,KNN算法是一种强大且常用的机器学习算法,特别适合于小型数据集或对实时预测速度要求不高的情况。具体来说,对于分类问题,KNN算法会根据新样本周围K个最近的训练样本的类别来决定新样本的类别,通常采用。在回归问题中,KNN算法则是通过K个最近邻居的平均值或加权平均值来预测新样本的数值输出。其基本思想是通过找出与新样本最接近的已标记数据中的K个。进行多数表决,统计 K 个样本中哪个类别的样本个数最多。

2024-08-07 19:31:16 249

原创 机器学习拟合概念 day04

过拟合(Overfitting)是指机器学习模型在训练数据上表现很好,但在测试数据或新数据上表现不佳的现象。有多种因素可能导致过拟合,其中最常见的情况是由于学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了,而欠拟合则通常是由于学习能力低下而造成的.欠拟合(Underfitting)是指模型在训练数据上表现不佳,通常表现为模型不能很好地捕捉数据中的趋势和模式。总之,拟合是一种重要的数学工具,它帮助我们从数据中提取出有用的信息,进而理解数据背后的模式和规律。拟合(fitting)

2024-08-06 22:06:17 1830

原创 特征工程概念----day03

PCA的优势在于能够去除数据中的冗余信息,减少数据的复杂性,同时保留数据中的主要结构。如果有三种颜色(红、绿、蓝),则独热编码会将这三种颜色分别编码为[1, 0, 0]、[0, 1, 0]、[0, 0, 1]。为依据的,从而使得映射后的数据在第一个主成分(方差最大的方向)上具有最大的方差,依次类推。如果有三个等级(低、中、高),则标签编码可以将它们分别映射为0、1、2。的情况,例如颜色(红、绿、蓝)、国家(美国、加拿大、澳大利亚)等。的情况,例如等级(低、中、高)或年龄组(青年、中年、老年)等。

2024-08-05 21:30:00 443

原创 机器学习建模流程 day02

模型参数是模型在训练过程中学习得到的,用于描述数据的特征或关系;泛化能力(generalization ability)指的是机器学习模型对未见过的数据的适应能力或表现能力。数据库是计算机里面的存储的数据的,当然可以对数据进行一些操作增删改查,通常用于存储大量结构化数据,并提供高效的数据操作和查询功能。数据漂移就是一种影响因素。数据漂移(Data Drift)是指在机器学习模型部署后,输入数据的分布发生变化,导致模型的性能下降的现象。

2024-08-04 21:30:00 1536

原创 人工智能一些基础知识的理解 day01

举个例子:西瓜的好坏可以由色泽、根蒂、敲声等来决定,我们可以对 这些特征进行归纳,那些特征同时出现的概率高,比如色泽青绿的瓜更 容易出现根蒂蜷缩的情况(也就是关联分析)或者一个未标记的数据集, 并且想要根据色泽特征将其分成两个组(类似聚类,旨在将数据集中的 样本划分为不同的组,使得组内的样本尽可能相似,而组间的样本尽可 能不同)或者通过PCA(就是一些数学算法)将西瓜的主特征进行数字 化,从而形成新的数据表达形式(也就是降维)。特征是事物本身的特征比如说西瓜的色泽是怎么样的;

2024-08-03 21:30:00 411 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除