昇思MindSpore学习笔记3-02热门LLM及其他AI应用--K近邻算法实现红酒聚类

最新推荐文章于 2025-04-13 21:36:23 发布

muren

最新推荐文章于 2025-04-13 21:36:23 发布

阅读量1k

点赞数 16

文章标签：学习笔记深度学习

本文链接：https://blog.youkuaiyun.com/muren/article/details/140149235

版权

摘要：

介绍了K近邻算法，记录了MindSporeAI框架使用部分wine数据集进行KNN实验的步聚和方法。包括环境准备、下载红酒数据集、加载数据和预处理、搭建模型、进行预测等。

一、KNN概念

1. K近邻算法K-Nearest-Neighbor(KNN)

用于分类和回归的非参数统计方法

Cover、Hart于1968年提出

机器学习最基础的算法之一。

确定样本类别

计算样本与所有训练样本的距离

找出最接近的k个样本

统计样本类别

投票

结果就是票数最多的类。

三个基本要素：

K值，样本分类由K个邻居的“多数表决”确定

K值太小容易产生噪声

K值太大类别界限模糊

距离度量，特征空间中两个样本间的相似度

距离越小越相似

Lp距离（p=2时，即为欧式距离）

曼哈顿距离

海明距离

分类决策规则

多数表决

基于距离加权的多数表决（权值与距离成反比）

2.预测算法（分类）的流程

（1）找出距离目标样本x_test最近的k个训练样本，保存至集合N中；

（2）统计集合N中各类样本个数 Ci,i=1,2,3,...,c；

（3）最终分类结果为Ci最大的那个类（argmaxCi）。

k取值重要。

根据问题和数据特点来确定。

带权重的k近邻算法

每个样本有不同的投票权重

3.回归预测

回归预测输出为所有邻居的标签均值：

yi为k个目标邻居样本的标签值

带样本权重的回归预测函数：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

muren

关注关注

16
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

《昇思25天学习打卡笔记》---第十五天|应用实践-LLM和Ai应用-K近邻算法实现红酒聚类

ccvzcc的博客

07-04

219

然而，它的缺点也很明显，如计算量大（特别是当数据集很大时），且需要大量的内存来存储整个训练数据集；它的工作原理非常直观，核心思想是：如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，那么该样本也属于这个类别，并具有这个类别上样本的特性。：首先，你需要确定一个合适的K值，即考虑最近的邻居数量。K值的选择对结果有很大影响，太小可能会受到噪声的影响，太大可能无法对数据进行准确建模。：对于给定的测试样本，计算其与训练集中的每个样本之间的距离。：从训练集中找出距离测试样本最近的K个样本。

3万字深度解析AI大语言模型在医疗领域全面进展以及潜在前沿应用

bagell的博客

10-26

1899

名称年份 (约)架构训练数据实验数据集2019BERTMIMIC-IIIMIMIC-III；BioBERT2019BERTPubMed 摘要和 PMC 全文文章BiomedBERT2020BERT在 BREATHE 数据集上预训练PubMedBERT2020BERT仅使用 PubMedBEHRT2020BERT临床实践研究数据链 (CPRD)CPRD 预期未来更新数据集GatorTron2022BERT 风格。

参与评论您还未登录，请先登录后发表或查看评论

2022年总结：感谢十二年的陪伴——分享回归，不忘初心（Eastmount博客总结及未来规划）

杨秀璋的专栏

05-29

9748

曾记否，2021年4月28日，为了更好地从事科研和学习，当时给所有读者群发了我在优快云唯一的私信，感谢大家十年的陪伴，短暂消失，不负青春。当时也收到了很多博友的鼓励与祝福，感恩。转眼，部分重要的事情将要完成，作者的分享也将逐渐回归，仅以此文感谢读者十二年的陪伴和支持，感谢分享路上所有师长、家人、同学、朋友、博友和读者的陪伴及鼓励。同时，这篇文章将总结和归档作者这些年的博客专栏，并描述未来将要分享的技术和方向。

MIT 6.S087 生成式人工智能笔记（一）

龙哥盟

11-21

849

很好，我很抱歉，我们稍微有点迟到，但是让我们开始吧，所以欢迎来到系列讲座的第一堂课，这门讲座的名字是’人工智能基础模型的未来’，生成式人工智能，这是我们第二次举办这门课程，所以我开始研究这门课程。在TDP最近的热潮和突破之前，我真的感觉我们开始在社区中看到了一种新的方式来看待人工智能，那真的要改变一切，而且我认为我们现在已经开始看到这一点，而且真的，我在这次讲座系列中想要实现的目标。

斯坦福 CS25 Transformer 原理笔记（一）

龙哥盟

11-17

1550

大家好，欢迎来到 CS25 Pro UnitedV。这个课程在 2023 年冬季于斯坦福举办。😊 这个课程并不是关于可以变成汽车的机器人，而是关于深度学习模型，它们引起了世界的轰动，彻底改变了人工智能等领域。从自然语言处理开始，变压器已广泛应用于计算机视觉等领域。强化学习、生物学、机器人等。我们为您准备了一系列令人兴奋的视频，邀请了一些真正迷人的演讲者。跳过演讲。展示他们如何将变压器应用于不同领域的研究。希望您能享受并从这些视频中学习。所以不再拖延，让我们开始。这是一场纯粹的入门讲座。

TowardsDataScience 2024 中文翻译（七十七）

龙哥盟

01-09

1652

原文：TowardsDataScience 协议：CC BY-NC-SA 4.0 如何在企业层面同时实施知识图谱和大型语言模型（LLMs）原文：towardsdatascience.com/how-to-implement-knowledge-graphs-and-large-language-models-llms-together-at-the-enterprise-level-cf2835475c47?source=collection_archive---------0-----------

【iOS】UIPageViewController学习

2301_79847748的博客

04-13

306

笔者最近在写项目时想实现一个翻书效果，上网学习到了今天写本篇博客总结一下关于该控制器的学习，这里笔者学习较浅，后期再进行补充。下面我给出一张图来展现。

STM32单片机入门学习——第35节: [10-5] 硬件I2C读MPU6050

qq_44764442的博客

04-12

735

本次笔记是用来记录我的学习过程,同时把我需要的困难和思考记下来,有助于我的学习，同时也作为一种习惯,可以督促我学习,是一个激励自己的过程,让我们开始32单片机的学习之路。欢迎大家给我提意见,能给我的嵌入式之旅提供方向和路线，现在作为小白,我就先学习32单片机了,就跟着B站上的江协科技开始学习了.在这里会记录下江协科技32单片机开发板的配套视频教程所作的实验和学习笔记内容，因为我之前有一个开发板,我大概率会用我的板子模仿着来做.让我们一起加油！

蓝桥杯备赛学习笔记：高频考点与真题预测（C++/Java/python版）

Magnolia_He的博客

04-09

3701

通过对第13-15届蓝桥杯真题的分析，可以发现题目主要围绕。：如果数组是环形的（首尾相连），如何计算？：实现BST的插入和删除操作。祝大家备赛顺利，冲击省一！，找到和最大的连续子数组。展开，且近年逐渐增加。，返回最长回文子串。

B站充电视频下载器（需配合会员Cookie使用，仅供学习交流，Python）

qq_40753021的博客

04-09

744

这个程序是一个用于下载B站充电视频的工具，依赖于用户提供的会员Cookies。

Linux线程学习

2202_75840803的博客

04-09

948

进程要创建会话才变成守护进程。

RTT中断管理学习

Caramel_biscuit的博客

04-09

632

Cortex-M系列CPU的寄存器组里有R0~R15共16个通用寄存器组和若干特殊功能寄存器。R13作为堆栈指针寄存器（Stack Pointer，SP）；R14作为连接寄存器（Link Register，LR），用于在调用子程序时，存储返回地址；R15作为程序计数器（Program Counter，PC），其中堆栈指针寄存器可以是主堆栈指针（MSP），也可以是进程堆栈指针（PSP）。程序状态字寄存器里保存算术与逻辑标志，例如负数标志，零结果标志，溢出标志等等。

游戏引擎学习第217天

虾球

04-11

897

优点说明节省内存两个指针复用内存，只占一个指针大小的空间简化管理用同一结构体可同时管理活跃节点与空闲节点提高效率避免频繁堆内存分配与释放，配合内存池策略使用更高效定义NextFree;是为了在事件存活和被释放这两种状态下复用指针字段节省内存，这是低层内存管理中常见且优雅的优化手法。引入帧索引的本质是为了让调试系统有一个「可对比」的时间锚点，以便在后续回收事件数据时判断事件是否属于旧帧。我们采用的 32 位递增计数器在实际使用中具有足够的寿命，简单、高效、易于实现，非常适合调试用途。

Kotlin 学习--数组

qq_26522993的博客

04-09

881

由java 代码向kotlin转变------数组

Hi168云平台部署Ansible学习环境

广然笔记

04-09

872

之前发布的文章已经介绍过了在Hi168云平台部署openEuler学习环境，那么既然能部署openEuler了，其他的各类学习环境自然也就可以部署了。Ansible 是一个运维自动化工具，可以通过 SSH 协议对远程主机进行管理，对远程主机执行批量操作，包括：文件复制、软件包安装、服务的启动重启等。Ansible 解决了如何大批量、自动化的实现系统配置、应用部署、命令和服务操作的问题。其脚本具有灵活、可重入的特性，可以极大地减少运维人员的重复劳动，提高了运维效率。

希哈表的学习

2301_79790385的博客

04-11

218

【代码】希哈表的学习。

STM32单片机入门学习——第31节: [10-1] I2C通信协议

qq_44764442的博客

04-10

977

javaSE学习（前端基础知识）

2302_78879607的博客

04-11

1104

HTML、CSS 和 JavaScript 是网页开发的三大核心技术，它们之间存在着紧密的关系，各自有着不同的职责和用途。学习之路漫漫，如果有错误之处期待与大家在评论区交流~

数学建模学习资料免费分享：历年赛题与优秀论文、算法课程、数学软件等