什么是机器学习？有哪些算法和分类？又有哪些应用？看完你就懂了

最新推荐文章于 2025-07-08 20:25:17 发布

原创

最新推荐文章于 2025-07-08 20:25:17 发布 · 9.9k 阅读

26 ·

CC 4.0 BY-SA版权

本文从大数据背景出发，介绍了机器学习的基本概念、发展历程，并详细阐述了传统机器学习（分类、聚类、回归等）、深度学习和其他机器学习（迁移学习、主动学习、演化学习）算法。接着，文章按学习形式将机器学习分为监督学习、无监督学习、半监督学习和强化学习。最后，探讨了机器学习在异常检测、用户画像、广告点击率预估、企业征信和智慧交通等领域的综合应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

导读：本文从大数据的概念讲起，主要介绍机器学习的基础概念，以及机器学习的发展过程，用一个形象的例子讲解大数据生态中的机器学习，并按照传统机器学习（包括分类、聚类、回归、关联规则、协同过滤、数据降维等）、深度学习，以及其他机器学习（迁移学习、主动学习、演化学习）进行算法讲解。

接着按照学习形式将机器学习划分为监督学习、无监督学习、半监督学习、强化学习进行分类说明，最后概要介绍机器学习综合应用场景。

本文只是一个开始，以期使读者对大数据机器学习的应用情况有一个全貌概览。

作者：马海平于俊吕昕向海

如需转载请联系华章科技

什么是机器学习？有哪些算法和分类？又有哪些应用？看完你就懂了

01 机器学习概述

随着大数据的发展，机器学习进入了最美好的时代，通过“涟漪效应”逐步迭代，大数据推动机器学习真正实现落地。

接下来，我们从大数据讲起，扩展到机器学习的发展和大数据生态。

1. 理解大数据

数据源越多越精确，越能无限逼近事实和真相，越能获得更深邃的智慧和洞察，这就是大数据的价值。

“大数据（Big Data，BD）”的概念早已有之，1980年著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中，将大数据热情地赞颂为“第三次浪潮的华彩乐章”。

近几年，“大数据”和“物联网”“云计算”“人工智能”一道成为信息技术行业的流行词汇，理清楚它们的关系是理解大数据的前提，但是和大数据概念一样，每个人都有自己的理解。

徐宗本院士在“再论大数据—在人工智能的浪潮下对大数据的再认识”报告中提出大数据与其他信息技术的关系：物联网是“交互方式”，云计算是“基础设施”，人工智能是“场景应用”，大数据是“交互内容”。大数据使用物联网交互方式、存储在云计算基础设施、支持人工智能场景应用，生成完整的价值链。

陈国良院士在“大数据与高性能计算”报告中提出了物联网（IoT）、大数据（BD）、云计算（CC）生态链，如图1-2所示。

什么是机器学习？有哪些算法和分类？又有哪些应用？看完你就懂了

▲图1-2 物联网、云计算、大数据生态链

① IoT通过采集与捕获产生了BD；② BD为CC找到了更多的实际应用；③ CC为BD提供了弹性可扩展的存储和并行处理；④ BD为IoT产生了大价值，云计算与高性能计算是一对在出生时被分开的兄弟，两者相结合得到的高性能云计算能产生更大的价值。

总之，大数据的存储、处理需要云计算基础设施的支撑，云计算需要海量数据的处理能力证明自身的价值；人工智能技术的进步离不开云计算能力的不断增长，云计算让人工智能服务无处不在、触手可及；大数据的价值发现需要高效的人工智能方法，人工智能的自我学习需要海量数据的输入。

随着大数据和人工智能的深度融合，高度数据化的AI（人工智能）和高度智能化的DT（大数据技术）并存将是时代新常态。

2. 机器学习发展过程

机器学习（Machine Learning，ML）是人工智能的核心，涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域，研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构从而不断改善自身的性能。

相对于传统机器学习利用经验改善系统自身的性能，现在的机器学习更多是利用数据改善系统自身的性能。基于数据的机器学习是现代智能技术中的重要方法之一，它从观测数据（样本）出发寻找规律，利用这些规律对未来数据或无法观测的数据进行预测。

机器学习的发展过程分为三个阶段。

第一阶段，逻辑推理期（1956年—1960年），以自动定理证明系统为代表，如西蒙与纽厄尔的Logic Theorist系统，但是逻辑推理存在局限性。
第二阶段，知识期（1970年—1980年），以专家系统为代表，如费根·鲍姆等人的DENDRAL系统，存在要总结出知识、很难“教”给系统的问题。
第三阶段，学习期（1990年至今），机器学习是作为“突破知识工程瓶颈”之利器出现的。在20世纪90年代中后期，人类发现自己淹没在数据的海洋中，机器学习也从利用经验改善性能转变为利用数据改善性能。这阶段，人们对机器学习的需求也日益迫切。

典型的机器学习过程是以算法、数据的形式，利用已知数据标注未知数据的过程。如图1-3所示，首先需要将数据分为训练集和样本集（训练集的类别标记已知），通过选择合适的机器学习算法，将