自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_56750282的博客

原创交叉验证--day07

在传统的K折交叉验证（K-Fold Cross-Validation）中，数据集被随机分成K个子集（折），然后进行K次训练与验证，每次用K-1个折作为训练集，剩下的一个折作为验证集。K折交叉验证（K-Fold Cross-Validation）是最常用的一种交叉验证方法，它通过将数据集划分为 K 个相等大小的子集（折叠，fold），在不同的折叠上进行多次训练和测试，以更全面地评估模型的性能。K折交叉验证是评估和选择模型的标准方法，特别是在没有单独的验证集或测试集的情况下，它能提供更可靠的模型性能估计。

2024-08-10 17:38:01 1972

原创 KNN算法（距离度量、归一化标准化）--day06

其中p≥1 是闵可夫斯基指数。切比雪夫距离（Chebyshev distance），也称为棋盘距离或无限范数距离，是在几何空间中计算两点之间的距离的一种方法，它使用的度量方式是各坐标数值差的绝对值的最大值。闵可夫斯基距离是一种重要的距离度量方法，能够根据p的值在曼哈顿距离和欧氏距离之间进行平滑过渡，并且可以适应不同的数据特性和应用需求。闵可夫斯基距离（Minkowski distance）是一种通用的距离度量方法，可以统一描述曼哈顿距离和欧氏距离，并且可以根据参数p的不同取值，适应不同类型的数据和问题。

2024-08-08 22:03:12 2882

原创 KNN（K-近邻算法)(上)--day05

这与参数化方法相对，参数化方法假设数据服从特定的分布形式，并且基于这些假设推断模型参数。总的来说，KNN算法是一种强大且常用的机器学习算法，特别适合于小型数据集或对实时预测速度要求不高的情况。具体来说，对于分类问题，KNN算法会根据新样本周围K个最近的训练样本的类别来决定新样本的类别，通常采用。在回归问题中，KNN算法则是通过K个最近邻居的平均值或加权平均值来预测新样本的数值输出。其基本思想是通过找出与新样本最接近的已标记数据中的K个。进行多数表决，统计 K 个样本中哪个类别的样本个数最多。

2024-08-07 19:31:16 285

原创机器学习拟合概念 day04

过拟合（Overfitting）是指机器学习模型在训练数据上表现很好，但在测试数据或新数据上表现不佳的现象。有多种因素可能导致过拟合,其中最常见的情况是由于学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了，而欠拟合则通常是由于学习能力低下而造成的.欠拟合（Underfitting）是指模型在训练数据上表现不佳，通常表现为模型不能很好地捕捉数据中的趋势和模式。总之，拟合是一种重要的数学工具，它帮助我们从数据中提取出有用的信息，进而理解数据背后的模式和规律。拟合（fitting）

2024-08-06 22:06:17 2252

原创特征工程概念----day03

PCA的优势在于能够去除数据中的冗余信息，减少数据的复杂性，同时保留数据中的主要结构。如果有三种颜色（红、绿、蓝），则独热编码会将这三种颜色分别编码为[1, 0, 0]、[0, 1, 0]、[0, 0, 1]。为依据的，从而使得映射后的数据在第一个主成分（方差最大的方向）上具有最大的方差，依次类推。如果有三个等级（低、中、高），则标签编码可以将它们分别映射为0、1、2。的情况，例如颜色（红、绿、蓝）、国家（美国、加拿大、澳大利亚）等。的情况，例如等级（低、中、高）或年龄组（青年、中年、老年）等。

2024-08-05 21:30:00 556

原创机器学习建模流程 day02

模型参数是模型在训练过程中学习得到的，用于描述数据的特征或关系；泛化能力（generalization ability）指的是机器学习模型对未见过的数据的适应能力或表现能力。数据库是计算机里面的存储的数据的，当然可以对数据进行一些操作增删改查，通常用于存储大量结构化数据，并提供高效的数据操作和查询功能。数据漂移就是一种影响因素。数据漂移（Data Drift）是指在机器学习模型部署后，输入数据的分布发生变化，导致模型的性能下降的现象。

2024-08-04 21:30:00 1653

原创人工智能一些基础知识的理解 day01

举个例子：西瓜的好坏可以由色泽、根蒂、敲声等来决定，我们可以对这些特征进行归纳，那些特征同时出现的概率高，比如色泽青绿的瓜更容易出现根蒂蜷缩的情况（也就是关联分析）或者一个未标记的数据集，并且想要根据色泽特征将其分成两个组（类似聚类，旨在将数据集中的样本划分为不同的组，使得组内的样本尽可能相似，而组间的样本尽可能不同）或者通过PCA（就是一些数学算法）将西瓜的主特征进行数字化，从而形成新的数据表达形式（也就是降维）。特征是事物本身的特征比如说西瓜的色泽是怎么样的；

2024-08-03 21:30:00 481 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除