什么是机器学习

机器学习是一种数据处理方法,它使计算机通过学习数据中的模式和规律,实现类似人类的学习过程。主要任务包括监督学习(分类和回归)和无监督学习(聚类和密度估计)。开发机器学习项目涉及数据获取、预处理、人工分析、算法训练和评估。机器学习广泛应用于各种领域,如垃圾邮件检测、物联网数据处理,以及复杂决策问题的解决。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

机器学习(machine learning)随着大数据的火热后也渐渐进入了大众的视野,但是大多数没有仔细了解过机器学习的朋友都对机器学习有认识上的偏差,比如说有一次和朋友聊天,朋友认为机器学习就是给智能机器人写算法。虽说机器学习的主要算法和应用的确在智能机器人上有很多体现但是这样的认识还是有些狭义。机器学习,其实是利用计算机来对数据进行像人类本能一样的学习而获取数据中人们很难发现的真实含义的数据处理方法的集合。和人类使用天生的学习能力来学习如何日常生活一样,使用机器学习方法让计算机学习数据的过程中,计算机通常不需要了解数据中最精确的量化关系就能获取数据中高准确率的结论或规律。

机器学习的潜在价值

机器学习是对人类认知水平的一个补充,人类无法短时处理大量原始数据,或者当处理特定数据所消耗的时间价值超过了处理这些数据产生的价值。比如判断垃圾邮件,虽然对于每个人来说垃圾邮件也许总量并不多,但是处理垃圾邮件所花费的几分钟时间产生的价值甚至还没有呆坐着产生的效用高。所以运用计算机将邮件这样内容不具有特定格式的数据进行处理分析得出邮件的属性就尤为重要,也就是说机器学习把无序的信息转化为有序的信息。
机器学习在几乎所有工程学科中都可以进行运用,也需要特定学科的知识,可以说机器学习对于任何需要解释并操作数据的领域都有所效用。
有时候我们可以运用上天赐予我们的大脑和已有的知识储备以及算法清楚的理解一个问题,比如说自动售货机的工作原理,但是对于另一类问题,由于信息量过大,或者问题涉及影响因素过多而无法对问题建立精确的模型,比如预测人的行为。这时就不得不运用统计学工具了。
现今,互联网上的数据很多都是人工产生的,但是越来越多的非人为数据正随着物联网的发展在以越来越快的速度占领世界各地服务器的存储空间,这类数据的采集者也可以称作传感器。对于这类数据,有时候是我们在一些项目中需要却难以获取,比如说在通过低频磁场检测地震的项目中就需要大量传感器获取各地的磁场情况,而在日常使用的手机中嵌入磁场检测模块就可以轻松获取大量数据。接下来就是要研究如何利用大量数据,又以手机举例,大多数智能手机中带有陀螺仪,加速计,温度传感器,GPS 定位模块,产生的数据都可以用来研究。对于这些海量数据来说,使用统计方法从中抽取有用的信息是非常重要的课题。
从另一个角度来说现代的工作中脑力劳动的比重越来越大,其中不少工作内容都是类似于最大化利润,最小化风险,保证最大回撤这样有多重影响因素的问题,特别是在面对大量数据的时候这样的工作对于人工来说显得非常有难度,而机器学习有利于我们拨开数据表面漂浮的迷雾,获取有用的信息。

机器学习的主要任务及其算法

机器学习根据要处理的数据集是否有目标变量分为监督学习和无监督学习。
其中监督学习处理的数据集中包含目标变量,用于对目标变量的预测,根据目标变量的类型,又可分为分类和回归。分类用于数据集目标变量是枚举类型的情况,回归用于数据集目标变量是连续型变量类型的情况。基础的监督学习算法有 k-近邻算法,朴素贝叶斯算法,支持向量机,决策树,线性回归,局部加权线性回归,Ridge 回归,Lasso 最小回归系数估计。
而无监督学习处理不包含目标变量的数据集,主要用于寻找数据中蕴含的规律,对数据集合对象进行分类的问题称为聚类,抽取数据集合统计量的问题称为密度估计,减少数据特征变量个数也是属于无监督学习的范畴。基本的无监督学习算法有 K-均值法,DBSCAN,最大期望算法,Parzen 窗设计。
只有最合适的算法,没有最好的算法,每一个算法都有其最合适应用的场景也有不少缺陷,对于同一个问题可以运用多个算法,但是其中有最佳算法,换一个问题,也许对应的最佳算法就不一样了。

开发机器学习项目的步骤

(1)获取数据。我们可以运用很多方法来获取数据,比如使用爬虫爬取互联网数据,也可以使用传感器获得的数据,可以从网上下载公开免费的数据,也可以在一些数据网站购买数据。
(2)数据预处理。原始数据可能是二进制的,也可能有的时间数据是直接用微秒表示的相对时间,这样我们就需要根据编程语言中支持的数据格式来对原始数据进行转化以使编程语言能够支持数据。另一方面,有些算法要求特定类型的数据,比如要求是整型还是浮点型,也需要在编写算法前对数据进行处理。
(3)人工分析数据。这一步需要检查前两步获取的数据有无异常情况,比如有没有数据缺失或离散度非常高的垃圾数据。然后对数据进行图形化表示来对数据有一个直观的认知,比如选取2-3个变量或压缩变量得到2-3个变量绘制二维或三维的图像来展示数据。
(4)训练算法。这一步主要是在监督学习中进行,主要是为了通过训练获取算法后续工作所需的参数。无监督学习由于不存在目标变量所以就没有参数可以训练。
(5)评估算法。对于监督学习来说,检测预测准确率就是典型的评估手段。对于无监督学习来说也有很多评价指标用以参考。如果在此阶段发现有问题,那么就要回到前几步来寻找问题。
评估完成后就可以正式将项目交付使用了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值