- 博客(7)
- 收藏
- 关注
原创 交叉验证--day07
在传统的K折交叉验证(K-Fold Cross-Validation)中,数据集被随机分成K个子集(折),然后进行K次训练与验证,每次用K-1个折作为训练集,剩下的一个折作为验证集。K折交叉验证(K-Fold Cross-Validation)是最常用的一种交叉验证方法,它通过将数据集划分为 K 个相等大小的子集(折叠,fold),在不同的折叠上进行多次训练和测试,以更全面地评估模型的性能。K折交叉验证是评估和选择模型的标准方法,特别是在没有单独的验证集或测试集的情况下,它能提供更可靠的模型性能估计。
2024-08-10 17:38:01
1356
原创 KNN算法(距离度量、归一化标准化)--day06
其中p≥1 是闵可夫斯基指数。切比雪夫距离(Chebyshev distance),也称为棋盘距离或无限范数距离,是在几何空间中计算两点之间的距离的一种方法,它使用的度量方式是各坐标数值差的绝对值的最大值。闵可夫斯基距离是一种重要的距离度量方法,能够根据p的值在曼哈顿距离和欧氏距离之间进行平滑过渡,并且可以适应不同的数据特性和应用需求。闵可夫斯基距离(Minkowski distance)是一种通用的距离度量方法,可以统一描述曼哈顿距离和欧氏距离,并且可以根据参数p的不同取值,适应不同类型的数据和问题。
2024-08-08 22:03:12
2581
原创 KNN(K-近邻算法)(上)--day05
这与参数化方法相对,参数化方法假设数据服从特定的分布形式,并且基于这些假设推断模型参数。总的来说,KNN算法是一种强大且常用的机器学习算法,特别适合于小型数据集或对实时预测速度要求不高的情况。具体来说,对于分类问题,KNN算法会根据新样本周围K个最近的训练样本的类别来决定新样本的类别,通常采用。在回归问题中,KNN算法则是通过K个最近邻居的平均值或加权平均值来预测新样本的数值输出。其基本思想是通过找出与新样本最接近的已标记数据中的K个。进行多数表决,统计 K 个样本中哪个类别的样本个数最多。
2024-08-07 19:31:16
249
原创 机器学习拟合概念 day04
过拟合(Overfitting)是指机器学习模型在训练数据上表现很好,但在测试数据或新数据上表现不佳的现象。有多种因素可能导致过拟合,其中最常见的情况是由于学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了,而欠拟合则通常是由于学习能力低下而造成的.欠拟合(Underfitting)是指模型在训练数据上表现不佳,通常表现为模型不能很好地捕捉数据中的趋势和模式。总之,拟合是一种重要的数学工具,它帮助我们从数据中提取出有用的信息,进而理解数据背后的模式和规律。拟合(fitting)
2024-08-06 22:06:17
1830
原创 特征工程概念----day03
PCA的优势在于能够去除数据中的冗余信息,减少数据的复杂性,同时保留数据中的主要结构。如果有三种颜色(红、绿、蓝),则独热编码会将这三种颜色分别编码为[1, 0, 0]、[0, 1, 0]、[0, 0, 1]。为依据的,从而使得映射后的数据在第一个主成分(方差最大的方向)上具有最大的方差,依次类推。如果有三个等级(低、中、高),则标签编码可以将它们分别映射为0、1、2。的情况,例如颜色(红、绿、蓝)、国家(美国、加拿大、澳大利亚)等。的情况,例如等级(低、中、高)或年龄组(青年、中年、老年)等。
2024-08-05 21:30:00
443
原创 机器学习建模流程 day02
模型参数是模型在训练过程中学习得到的,用于描述数据的特征或关系;泛化能力(generalization ability)指的是机器学习模型对未见过的数据的适应能力或表现能力。数据库是计算机里面的存储的数据的,当然可以对数据进行一些操作增删改查,通常用于存储大量结构化数据,并提供高效的数据操作和查询功能。数据漂移就是一种影响因素。数据漂移(Data Drift)是指在机器学习模型部署后,输入数据的分布发生变化,导致模型的性能下降的现象。
2024-08-04 21:30:00
1536
原创 人工智能一些基础知识的理解 day01
举个例子:西瓜的好坏可以由色泽、根蒂、敲声等来决定,我们可以对 这些特征进行归纳,那些特征同时出现的概率高,比如色泽青绿的瓜更 容易出现根蒂蜷缩的情况(也就是关联分析)或者一个未标记的数据集, 并且想要根据色泽特征将其分成两个组(类似聚类,旨在将数据集中的 样本划分为不同的组,使得组内的样本尽可能相似,而组间的样本尽可 能不同)或者通过PCA(就是一些数学算法)将西瓜的主特征进行数字 化,从而形成新的数据表达形式(也就是降维)。特征是事物本身的特征比如说西瓜的色泽是怎么样的;
2024-08-03 21:30:00
411
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人