机器学习简介
机器学习是什么
机器学习教计算机执行人和动物与生俱来的活动:从经验中学习。机器学习算法使用计算方法直接从数据中“学习”信息,而不依赖于预定方程模型。当可用于学习的样本数量增加时,这些算法可自适应提高性能。
机器学习算法可从能够带来洞察力的数据中发现自然模式,帮助您更好地指定决策和作出预测。医疗诊断、股票交易、能量负荷预测及更多行业每天都在使用这些算法指定关键决策。媒体网站依靠机器学习算法从数百万种选择中筛选出为您推荐的歌曲或影片。零售商利用这些算法深入了解客户的购买行为。
随着大数据的增加,机器学习对于解决以下领域的问题变得尤为重要:
- 计算金融学,用于信用评估和算法交易
- 图像处理和计算机视觉,用于人脸识别、运动检测和对象检测
- 计算生物学,用于肿瘤检测、药物发现和DNA顺序分析
- 能源生产,用于预测价格和负荷
- 汽车、航空航天和制造业,用于预见性维护
- 自然语言处理
机器学习的工作原理
机器学习采用两种类型的技术:监督式学习和无监督学习。监督式学习根据已知的输入和输出训练模型,让模型能够预测未来输出;无监督学习从输入数据中找出隐藏模式或内在结构。
监督式学习
监督式学习旨在构建能够根据存在不确定性的证据作出预测的模型。监督式学习算法接受已知的输入数据集合对数据的已知响应(输出),然后训练模型,让模型能够为新输入数据的响应生成合理的预测。
监督式学习采用分类和回归技术开发预测模型:
- 分类技术可预测离散的响应 —例如,电子邮件是真正的邮件还是垃圾邮件,肿瘤是恶性还是良性的。分类模型可将输入数据划分为不同类别。典型的应用包括医学成像、语音识别和信用评估。在处理分类问题时,一开始就要确定该问题是二元问题还是多类问题。对于二元分类问题,单个训练或测试项目只能分成两类。对于多类分类问题,可以分成多个类,例如:如果您想训练一个模型,将图像分类为狗、猫或其它动物。多类分类问题一般更具有挑战性,因为需要比较复杂的模型。某些算法(例如逻辑回归)是专门为二分类问题设计的,在训练过程中,这些算法往往比多类算法更高效。
- 回归技术可预测连续的响应 —例如,电力需求中温度或波动变化。典型的应用包括电力系统负荷预测和算法交易。
无监督学习
无监督学习可发现数据中隐藏的模式或内在结构。这种技术可根据包含未标记响应的输入数据的数据集执行推理。
聚类是一种罪常见的无监督学习技术。这种技术可通过探索性数据分析发现数据中隐藏的模式或分组。
聚类的应用包括基因序列分析、市场调查和对象识别。