机器学习基本介绍

本文介绍了机器学习的基本概念,包括定义、形式(建模、评估、优化)以及机器学习的分类,如有监督学习、无监督学习、半监督学习等。还概述了机器学习过程中的关键步骤,如数据收集、清洗、模型选择和评估,以及解决回归、分类、聚类和降维等基本问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、什么是机器学习

        机器学习(Machine Learning):人工智能的一个子学科,研究人工智能领域的基本算法、原理、思想方法,机器学习研究的内容在其它子学科都会用到

        卡耐基梅隆大学机器学习和人工智能教授汤姆.米切尔(Tom Mitchell)在他的经典教材《机器学习》中,给出了更为具体的定义:对于某类任务(Task,简称T)和某项性能评价准则(Performance,简称P),如果一个计算机在程序T上,以P作为性能度量,随着经验(Experience,简称E)的积累,不断自我完善,那么我们称计算机程序从经验E中进行了学习。

例如,射击运动员的训练过程:射击标靶(任务T),以准确率为性能度量(P),随着不断练习(经验E),准确率不断提高,这个过程称为学习。

二、机器学习的形式

        1、建模

                所谓机器学习,在形式上可近似等同于在数据对象中通过统计、推理的方法,来寻找一个接受特定输入X,并给出预期输出Y功能函数f,即 Y = f(x) 这个函数以及确定函数的参数被称为模型

        2、评估

                针对已知的输入,函数给出的输出(预测值)与实际输出(目标值)之间存在一定误差,因此需要构建一个评估体系,根据误差大小判定函数的优劣

        3、优化

                学习的核心在与改善性能,通过数据对算法的反复锤炼,不断提升函数预测的准确性,直至获得能够满足实际需求的最优解,这个过程就是机器学习

三、机器学习的分类

        1、有监督学习

                在已知数据输出(经过标注的)的情况下对模型进行训练,根据输出进行调整、优化的学习方式称为有监督学习

         2、无监督学习

                没有已知输出的情况下,仅仅根据输入信息的相关性,进行类别的划分

 

         3、半监督学习

                先通过无监督学习划分类别,再人工标记通过有监督学习方式来预测输出.例如先对相似的水果进行聚类,再识别是哪个类别

        4、强化学习

                 通过对不同决策结果的奖励、惩罚,使机器学习系统在经过足够长时间的训练以后,越来越倾向于接近期望结果的输出

        5、批量学习

                将学习过程和应用过程分开,用全部训练数据训练模型,然后再在应用场景中进行预测,当预测结果不够理想时,重新回到学习过程,如此循环

        6、增量学习

                将学习过程和应用过程统一起来,在应用的同时,以增量的方式不断学习新的内容,边训练、边预测

        7、基于模型学习

                根据样本数据,建立用于联系输出和输出的某种数学模型,将待预测输入带入该模型,预测其结果

        8、基于实例学习

                根据以往经验,寻找与待预测输入最接近的样本,以其输出作为预测结果(从数据中心找答案)

四、机器学习的过程

  1. 数据收集,手段如手工采集、设备自动化采集、爬虫等
  2. 数据清洗:数据规范、具有较大误差的、没有意义的数据进行清理
  3. 选择模型(算法)
  4. 训练模型
  5. 模型评估
  6. 测试模型
  7. 应用模型
  8. 模型维护

五、机器学习的基本问题

1) 回归问题

根据已知的输入和输出,寻找某种性能最佳的模型,将未知输出的输入代入模型,得到连续的输出.例如:

  • 根据房屋面积、地段、修建年代以及其它条件预测房屋价格

  • 根据各种外部条件预测某支股票的价格

  • 根据农业、气象等数据预测粮食收成

  • 计算两个人脸的相似度

2) 分类问题

根据已知的输入和输出,寻找性能最佳的模型,将未知输出的输入带入模型,得到离散的输出,例如:

  • 手写体识别(10个类别分类问题)

  • 水果、鲜花、动物识别

  • 工业产品瑕疵检测(良品、次品二分类问题)

  • 识别一个句子表达的情绪(正面、负面、中性)

3) 聚类问题

根据已知输入的相似程度,将其划分为不同的群落,例如:

  • 根据一批麦粒的数据,判断哪些属于同一个品种

  • 根据客户在电商网站的浏览和购买历史,判断哪些客户对某件商品感兴趣

  • 判断哪些客户具有更高的相似度

4) 降维问题

在性能损失尽可能小的情况下,降低数据的复杂度,数据规模缩小都称为降维问题.

原创不易,转载请标明出处!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值