白话监督学习和无监督学习

引言

前面给大家初步讲解了 什么叫做 机器学习,大家不要被这个名字 迷惑了,我觉得找规律或者说映射 更能让人接受一些 ,机器学习有点抽象 也有点吓人。现在的机器没有逻辑推理能力只能去做一些 有规律或者重复脑动力的 这样的活。没有规律需要思考 联想的机器暂时还办不到 。以后说不定可以办到 ,所以我们用找规律这个词 让初学者更容易接受一些,入门了 我们在叫他机器学习,其实就是用一些算法 区别一下数据 。以后来了新数据 也按照之前的数据 经验去推测 现在的数据 得出 是什么一个分类 或者 符合一些规律的数据来。

机器学习 分类

监督学习

初中 就学过公式
y = a x + b 其中 a 和 b 是参数 x 为 自变量 y 为因变量

在这里插入图片描述

这里面 x 是 数据的值 y 是 自变量这些值的结果 。 只有 a 和 b 不确定 所以让机器去学习这些数据 得出 适当的 a 和 b 机器学习就是求这些参数的过程。

当然 我们这里只是假设了 一个自变量 x 其实有很多 自变量
y = ax1 + bx2 + cx3 + d 这样的 就有三个 自变量 x1 x2 x3 .
比如 影响房价预测: 三个自变量x1 x2 x3 一个因变量 y
1,地段 2,学区 3,楼龄 结论y
好 好 5 年 == 结论: 好
差 差 15 年 == 结论: 差
差 好 6 年 == 结论: 好

那么现在来了一个新的数据

1,地段差 2,学区差 3,楼龄 20 大致根据上面的数据 就能推测出 y 是差 。

经常 y 就称为 标签 也叫结论
数据中 有 自变量 x 和 因变量 y 用这样的数据去学习 就称为 有监督学习

无监督学习

理解了 有监督学习 很快就能理解 无监督学习 。 其实就是 没有 y 这个 因变量 让我们自动的找到 这堆数的分类 。
比如下图 黑色的点 表示数据 坐标的位置 我们根据位置的不同 可以发现这这些数据虽然只有 x 自变量 但是我们根据 这些坐标 很显然 能将数据分成 4类 。 我们不知道这4类数据的y 值代表什么意思 。 但是能分类出来。

那么来了一个 新数据 红色的点的位置 我们改归为哪一类呢 ? 明显属于 左下角那一堆数据 因为离他最近 。 所以这个分类过程 就叫 无监督学习

在这里插入图片描述

机器学习根据任务划分

分类

将数据按照 一定的规则 划分成不同的群体 。
比如上图  无监督学习   就是将 数据划分成了   4个群体 。

回归

比如上图中 数据 有一定的 规则走势 。
y = ax +b 根据历史数据求解出 a 和b 来了新数据 x 也能按照这个公式 预测出 新的值 y

在比如 天猫销售数据:

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
根据历史数据 可以求解出

a =00.124 b= 27.999 c= 84.297 d= 59.081 求解出 四个参数

得到公式 y= 0.124x ^3 + 27.999 x^2 - 84.297x + 59.081

按照这个规律 其实就可以预测 明年 双 11的销售额度。

还有不明白的 可以交流:
群群nub:八七四一三九四三六

机器学习是一种让计算机系统通过数据“学习”如何完成任务的方法,而无需明确编程。它的核心思想是:通过分析大量数据,找到其中的模式或规律,并利用这些模式对未知数据进行预测或决策。这与人类的学习方式类似——我们通过经验积累知识,从而做出判断。 ### 什么是机器学习? 在传统编程中,输入数据规则结合后会输出答案。而在机器学习中,输入的是数据对应的“答案”,算法通过学习这两者之间的关系,生成一个模型。这个模型可以用于处理新的、未知的数据并给出预测结果[^1]。 例如,如果你想让计算机识别猫的图片,你可以给它成千上万张带有标签的图片(哪些是猫,哪些不是猫)。机器学习算法会从这些数据中学习到“猫”的特征,并构建一个能够识别新图是否为猫的模型。 ### 机器学习的三大类型 #### 1. 监督学习(Supervised Learning) 监督学习是最常见的学习方式。它使用带有标签的数据进行训练,也就是说每一条训练数据都有一个“正确答案”。算法的目标是学会将输入映射到正确的输出。 - **分类问题**:输出是一个类别,比如判断一封邮件是否为垃圾邮件。 - **回归问题**:输出是一个连续值,比如根据房屋面积预测房价。 ```python # 示例:使用 scikit-learn 进行简单的线性回归 from sklearn.linear_model import LinearRegression import numpy as np X = np.array([[1], [2], [3], [4], [5]]) y = np.array([2, 4, 6, 8, 10]) model = LinearRegression() model.fit(X, y) print("预测值:", model.predict([[6]])) # 输出: 预测值: [12.] ``` #### 2. 无监督学习(Unsupervised Learning) 无监督学习不依赖于标签数据。它试图从数据中发现结构或模式。常见应用包括聚类分析降维。 - **聚类**:将相似的数据点归为一类,如用户分群。 - **降维**:减少数据维度以便可视化或提高效率,如主成分分析(PCA)。 #### 3. 强化学习(Reinforcement Learning) 强化学习是一种通过试错来学习最优策略的方法。它通常用于决策问题,比如游戏AI、机器人控制等。智能体(Agent)通过与环境互动获得奖励或惩罚信号,并据此调整其行为以最大化长期收益。 --- ### 机器学习的基本流程 1. **收集数据**:获取足够多且具有代表性的数据。 2. **预处理数据**:清洗数据、处理缺失值、标准化等。 3. **选择模型**:根据问题类型选择合适的算法(如线性回归、决策树、神经网络等)。 4. **训练模型**:用训练数据拟合模型参数。 5. **评估模型**:使用测试数据评估模型性能,常用指标有准确率、精确率、召回率等。 6. **调优与部署**:调整超参数,优化模型表现,并将其部署到实际应用中。 --- ### 通俗理解机器学习 可以把机器学习想象成一位学生在做题: - 老师给了他很多练习题答案; - 学生反复研究题目答案之间的关系; - 最终他学会了“解题方法”,即使遇到新题目也能独立解答。 这个过程就是机器学习中的“训练”;最终掌握的“解题方法”就是模型。 --- ### 总结 机器学习的核心在于“从数据中学习”,而不是靠人工编写规则。它广泛应用于图像识别、自然语言处理、推荐系统等领域。尽管背后涉及复杂的数学统计知识,但其基本原理可以用简单的方式理解并加以应用。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值