12、机器学习中的距离度量建模与交叉验证

距离度量与交叉验证详解

最新推荐文章于 2025-12-08 16:29:25 发布

a1b2c3d

最新推荐文章于 2025-12-08 16:29:25 发布

阅读量35

点赞数

CC 4.0 BY-SA版权

分类专栏：精通scikit-learn实战文章标签：机器学习距离度量 KNN回归

本文链接：https://blog.youkuaiyun.com/a1b2c3d/article/details/154556577

精通scikit-learn实战专栏收录该内容

20 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习中的距离度量建模与交叉验证

1. 距离度量建模

在机器学习中，距离度量在许多模型和算法中都有着重要的应用。例如，高斯分布与 k-means 聚类之间存在着基本的联系。我们可以基于质心和样本协方差矩阵创建一个经验高斯分布，并查看每个点的概率。这表明我们实际上移除了可能性最小的值。距离和可能性之间的这种关系在机器学习训练中非常重要。以下是创建经验高斯分布的代码：

from scipy import stats
emp_dist = stats.multivariate_normal(kmeans.cluster_centers_.ravel())
lowest_prob_idx = np.argsort(emp_dist.pdf(X))[:5]
np.all(X[sorted_idx] == X[lowest_prob_idx])
True

1.1 使用 KNN 进行回归

回归在机器学习中是一个重要的任务。我们可以在特征空间的局部区域进行回归。以鸢尾花数据集为例，我们尝试根据萼片的长度和宽度来预测花瓣的长度。
- 步骤 1：加载数据集

import numpy as np
from sklearn import datasets
iris = datasets.load_iris()
iris.feature_names

步骤 2：准备数据并拟合线性回归模型

订阅专栏解锁全文

会员秒杀 ¥9.9 重磅福利

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

a1b2c3d

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

机器学习、深度学习在数学建模的应用

candlespark的博客

05-12

1469

数学建模与机器学习的融合正在重塑科学探索与工程实践的范式。传统数学模型虽逻辑严谨，但在处理复杂系统时往往面临瓶颈，而机器学习虽擅长数据拟合，却因其“黑箱”特性难以独立承担所有建模任务。两者的结合旨在构建既能精准捕捉数据规律，又遵循科学原理、具备可解释性与泛化能力的新一代模型。混合建模通过将机理模型与机器学习模型有机结合，实现了机理约束与数据驱动的辩证统一。物理信息机器学习（PIML）和物理信息神经网络（PINNs）等技术的引入，使得模型在数据稀疏时仍能通过物理约束做出合理推断。深度学习的关键架构，如卷积神经

参与评论您还未登录，请先登录后发表或查看评论

机器学习知识点全面总结

专注大数据与人工智能技术分享，欢迎私信加群互相学习！

04-12

17万+

机器学习按照模型类型分为监督学习模型、无监督学习模型和概率模型三大类,文章对十大机器学习算法进行详细介绍并阐述机器学习其他概念问题，可作为机器学习初学者学习使用。

机器学习算法建模

m0_63753542的博客

01-14

1883

逻辑回归是一种统计分析模型，用于预测分类变量的结果。它是一种线性分类器，通常用于二分类问题，但也可以扩展到多分类问题。逻辑回归的基本思想是通过对特征进行线性组合，并将结果映射到一个逻辑函数上，从而得到分类结果。逻辑回归的sigmoid逻辑函数数学表达式为：，其中是输出值，是输入特征，是一个常数，称为逻辑回归的参数。在机器学习中，逻辑回归通常用于解决二分类问题，例如将客户分为“购买”和“不购买”两类。在实际应用中，逻辑回归可以用于各种领域，例如医疗保健、金融、市场营销等。

R语言在机器学习中的应用

m0_70066267的博客

10-26

1776

R语言作为一种强大的统计分析和图形表示工具，在机器学习领域具有广泛的应用前景。通过利用其丰富的数据结构、操作函数、可视化工具和统计分析方法，R语言可以轻松地实现复杂的机器学习算法，并将其应用于实际问题。同时，R语言的机器学习工具包如caret、tidymodels、mlr和mlr3等，为用户提供了强大的机器学习支持。未来，随着机器学习技术的不断发展和优化，R语言在机器学习领域的应用将更加广泛和深入。

机器学习-03-机器学习算法流程

IT从业者的成长历程

02-28

2045

本系列是机器学习课程的第02篇，主要介绍机器学习中算法流程。

机器学习入门基础（万字总结）（建议收藏！！！）

热门推荐

subsistent的博客

12-04

18万+

机器学习是人工智能的重要技术基础，涉及的内容十分广泛。本文章涵盖了机器学习的基础知识，主要包括机器学习的概述、回归、分类、聚类、神经网络、文本分析、图像分析、深度学习等经典的机器学习基础知识，还包括深度学习入门等拔高内容。介绍机器学习的基础概念和知识，包括机器学习简史、主要流派、与人工智能、数据挖掘的关系、应用领域、算法、一般流程等。伴随着计算机计算能力的不断提升以及大数据时代的迅发展人工智能也取得了前所未有的进步。

机器学习在网络安全领域的深度探索与实践

weixin_52421133的博客

02-09

2465

目标是学习一个函数，该函数能根据新的输入预测相应的输出。随着技术的不断成熟和应用场景的拓宽，我们有理由相信，在未来的网络安全保卫战中，机器学习将会发挥越来越重要的作用，成为捍卫数字世界和平与秩序的强有力支撑。同时，随着量子计算、物联网等新兴技术的发展，机器学习还将面临新的挑战和机遇，不断拓展其在网络安全领域的应用边界。总之，面对将机器学习应用于网络安全领域的各项挑战，采取合理的数据管理策略、选择适应实时场景的算法、关注模型解释性，并积极防御对抗性攻击，可以有效提升机器学习在网络安全应用中的效果和安全性。

图解大数据 | Spark机器学习(下)—建模与超参调优

ShowMeAI研究中心

03-09

1万+

本文介绍Spark中用于大数据机器学习的板块MLlib/ML，讲解分类算法、回归算法、聚类算法和PCA降维算法的代码实践，并讲解超参数调优和交叉验证、训练集验证集切分等重要知识点。

【一起啃西瓜书】机器学习-期末复习（不挂科）

风口IT猪的成长录

12-11

3万+

【机器学习-期末复习爆肝2w字笔记整理分享】《机器学习》致力于研究如何通过计算的手段，利用经验来改善系统自身的性能，从而在计算机上从数据（经验）中产生“模型”，用于对新的情况给出判断（利用此模型预测未来的一种方法）。分为三类：监督学习、元监督学习、强化学习。

数据挖掘与机器学习

Winyar的博客

07-21

4754

数据挖掘数据挖掘：也就是data mining，是一个很宽泛的概念，也是一个新兴学科，旨在如何从海量数据中挖掘出有用的信息来。数据挖掘这个工作BI（商业智能）可以做，统计分析可以做，大数据技术可以做，市场运营也可以做，或者用excel分析数据，发现了一些有用的信息，然后这些信息可以指导你的business，这也属于数据挖掘。 机器学习 机器学习：machine learning，是计算机科学...

12、距离度量建模与交叉验证：提升机器学习模型性能

lambda的博客

08-31

本文介绍了基于距离度量构建机器学习模型的方法，包括高斯分布与k-means聚类的联系、KNN回归的原理与实现，并通过鸢尾花数据集对比了线性回归与KNN回归的性能。随后详细讲解了多种交叉验证方案，如K折交叉验证、分层交叉验证、ShuffleSplit和时间序列交叉验证，探讨了它们在不同场景下的适用性和优势。最后总结了相关操作流程、代码注意事项以及实际应用建议，旨在帮助读者提升模型预测性能和稳定性。

机器学习中的距离度量建模与交叉验证

# 机器学习中的距离度量建模与交叉验证 ## 1. 基于距离度量构建模型 ### 1.1 高斯分布与 k-means 聚类的联系高斯分布与 k-means 聚类之间存在着基本联系。可以基于质心和样本协方差矩阵创建一个经验高斯分布，并...

0011机器学习特征工程

老欧学视觉的博客

12-03

744

本文系统介绍了机器学习特征工程的关键内容，包括特征工程在机器学习流程中的重要性、数据处理方法和降维技术。主要内容涵盖：1）特征工程的核心作用是通过数据预处理提升模型效果，包括异常值处理、数据平衡、文本向量化等；2）详细讲解了数据清洗、缺失值填充、标准化/归一化、One-Hot编码等基础处理方法；3）重点阐述了文本特征提取技术（词袋法、TF-IDF）和降维方法（特征选择、PCA、LDA）。文章强调特征工程需结合业务场景进行特征衍生和优化，占整个开发流程30%-50%的工作量，是机器学习项目成功的关键环节。

当AI遇见MEMS：机器学习如何优化微振镜的控制与可靠性预测

m0_57847742的博客

12-04

1115

您认为在控制优化与可靠性预测这两个方向中，哪一项的产业化落地会更快，面临的障碍更小？

机器学习--损失函数

weixin_57225400的博客

12-04

390

损失函数（Loss Function）是机器学习中用于衡量模型预测值与真实值之间差异的函数，是优化算法的核心目标。通过最小化损失函数，模型逐步调整参数以提高预测准确性。通过组合现有函数或设计新公式满足特定需求。加权MSE：为不同样本分配不同权重。正则化损失：加入L1/L2惩罚项防止过拟合。

【机器学习三大范式对比总结】

严文文 Chris

12-04

285

当初我学机器学习，一看到这些复杂的表格和术语就头疼。直到有一天，我意识到，这三种学习范式其实就像我们人类不同的学习方式，我才恍然大悟。现在，我希望以这段心路历程，带你用全新的视角理解它们。想象你被丢进一个完全陌生的市场，没有任何商品标签。你正在用什么范式面对你的知识、你的工作、你的人生困境呢？这个问题的答案，或许比任何算法选择都更有价值。所以，理解这三大范式，不仅仅是记住一张表格。它是在理解机器如何“学习”的同时，反过来。），你通过反复练习，学会从题目推导答案的。），自我完善，实现“举一反三”。

第二届机器学习、计算智能与模式识别国际学术会议（MLCIPR 2025）