什么是机器学习?有哪些算法和分类?又有哪些应用?看完你就懂了

本文从大数据背景出发,介绍了机器学习的基本概念、发展历程,并详细阐述了传统机器学习(分类、聚类、回归等)、深度学习和其他机器学习(迁移学习、主动学习、演化学习)算法。接着,文章按学习形式将机器学习分为监督学习、无监督学习、半监督学习和强化学习。最后,探讨了机器学习在异常检测、用户画像、广告点击率预估、企业征信和智慧交通等领域的综合应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

导读:本文从大数据的概念讲起,主要介绍机器学习的基础概念,以及机器学习的发展过程,用一个形象的例子讲解大数据生态中的机器学习,并按照传统机器学习(包括分类、聚类、回归、关联规则、协同过滤、数据降维等)、深度学习,以及其他机器学习(迁移学习、主动学习、演化学习)进行算法讲解。

接着按照学习形式将机器学习划分为监督学习、无监督学习、半监督学习、强化学习进行分类说明,最后概要介绍机器学习综合应用场景。

本文只是一个开始,以期使读者对大数据机器学习的应用情况有一个全貌概览。

作者:马海平 于俊 吕昕 向海

如需转载请联系华章科技

什么是机器学习?有哪些算法和分类?又有哪些应用?看完你就懂了

 

01 机器学习概述

随着大数据的发展,机器学习进入了最美好的时代,通过“涟漪效应”逐步迭代,大数据推动机器学习真正实现落地。

接下来,我们从大数据讲起,扩展到机器学习的发展和大数据生态。

1. 理解大数据

数据源越多越精确,越能无限逼近事实和真相,越能获得更深邃的智慧和洞察,这就是大数据的价值。

“大数据(Big Data,BD)”的概念早已有之,1980年著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。

近几年,“大数据”和“物联网”“云计算”“人工智能”一道成为信息技术行业的流行词汇,理清楚它们的关系是理解大数据的前提,但是和大数据概念一样,每个人都有自己的理解。

徐宗本院士在“再论大数据—在人工智能的浪潮下对大数据的再认识”报告中提出大数据与其他信息技术的关系:物联网是“交互方式”,云计算是“基础设施”,人工智能是“场景应用”,大数据是“交互内容”。大数据使用物联网交互方式、存储在云计算基础设施、支持人工智能场景应用,生成完整的价值链。

陈国良院士在“大数据与高性能计算”报告中提出了物联网(IoT)、大数据(BD)、云计算(CC)生态链,如图1-2所示。

什么是机器学习?有哪些算法和分类?又有哪些应用?看完你就懂了

▲图1-2 物联网、云计算、大数据生态链

① IoT通过采集与捕获产生了BD;② BD为CC找到了更多的实际应用;③ CC为BD提供了弹性可扩展的存储和并行处理;④ BD为IoT产生了大价值,云计算与高性能计算是一对在出生时被分开的兄弟,两者相结合得到的高性能云计算能产生更大的价值。

总之,大数据的存储、处理需要云计算基础设施的支撑,云计算需要海量数据的处理能力证明自身的价值;人工智能技术的进步离不开云计算能力的不断增长,云计算让人工智能服务无处不在、触手可及;大数据的价值发现需要高效的人工智能方法,人工智能的自我学习需要海量数据的输入。

随着大数据和人工智能的深度融合,高度数据化的AI(人工智能)和高度智能化的DT(大数据技术)并存将是时代新常态。

2. 机器学习发展过程

机器学习(Machine Learning,ML)是人工智能的核心,涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构从而不断改善自身的性能。

相对于传统机器学习利用经验改善系统自身的性能,现在的机器学习更多是利用数据改善系统自身的性能。基于数据的机器学习是现代智能技术中的重要方法之一,它从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。

机器学习的发展过程分为三个阶段。

  • 第一阶段,逻辑推理期(1956年—1960年),以自动定理证明系统为代表,如西蒙与纽厄尔的Logic Theorist系统,但是逻辑推理存在局限性。
  • 第二阶段,知识期(1970年—1980年),以专家系统为代表,如费根·鲍姆等人的DENDRAL系统,存在要总结出知识、很难“教”给系统的问题。
  • 第三阶段,学习期(1990年至今),机器学习是作为“突破知识工程瓶颈”之利器出现的。在20世纪90年代中后期,人类发现自己淹没在数据的海洋中,机器学习也从利用经验改善性能转变为利用数据改善性能。这阶段,人们对机器学习的需求也日益迫切。

典型的机器学习过程是以算法、数据的形式,利用已知数据标注未知数据的过程。如图1-3所示,首先需要将数据分为训练集和样本集(训练集的类别标记已知),通过选择合适的机器学习算法,将

<think>首先,用户的问题是:“有哪些一分类方法?” 这看起来像是“一分类”,但中文中“一分类”可能是个错误。可能用户指的是“一分类”或“一级分类”?在机器学习分类问题中,常见的是“二分类”或“多分类”。用户说“一分类”,这可能是个打字错误。或许是“异常检测”或“一分类”(one-class classification)?在机器学习中,确实有“一分类”(one-class classification),它用于识别异常或新颖性检测,其中只有一类样本可用。 用户的问题是中文的:“有哪些一分类方法?”,所以我认为“一分类”指的是“one-class classification”。在中文中,这通常翻译为“一分类”或“单类分类”。 所以,我需要回答关于一分类方法的问题。 关键点: - 回答完问题后,必须根据用户的问题及我的回答提出3-5个相关问题。 - 相关问题必须以“§§相关问题§§”开头,并且是第一行。 - 禁止换行分散,意思是相关问题应该在一行中列出,用数字点号分隔。 - 从示例看,相关问题是用数字列表,如“1. ··· 2. ··· 3. ···”,并且没有换行分散,所以可能是连续输出。 示例格式: - 回答内容,然后 - “§§相关问题§§” - 然后列出问题,如“1. ···\n2. ···\n3. ···” – 在示例中是换行,但指令说“禁止换行分散”,可能意思是相关问题部分不要有多余的换行或分散内容。指令说:“禁止换行分散。”,但示例中是有换行的。看示例输出: - 快速排序的基本思想是... - ```python code``` - §§相关问题§§ - 1. ··· - 2. ··· - 3. ··· 所以,似乎“§§相关问题§§”后换行列出问题是可以的。指令“禁止换行分散”可能指的是在相关问题列表中不要有不必要的换行,意思是每个问题应该在一行中完整,不要分成多行。 指令:"禁止换行分散。" 可能意思是相关问题输出时不要用换行来分散内容,但示例中是用换行分隔每个问题的。我认为应该是像示例那样输出。 现在,构建我的回答。 首先,回答用户的问题:有哪些一分类方法? 一分类(one-class classification)方法主要用于异常检测,其中训练数据只有正常类样本,目标是识别异常样本。 常见的一分类方法包括: 1. **One-Class SVM (支持向量机)**:基于支持向量机,通过在高维空间中找到一个超球体来包含正常数据点。 2. **Isolation Forest (隔离森林)**:一种基于树的算法,通过随机分割数据来隔离异常点。 3. **Local Outlier Factor (LOF, 局部离群因子)**:计算每个点的局部密度偏差来检测异常。 4. **Autoencoders (自动编码器)**:在深度学习中,使用重建误差来识别异常;正常数据重建误差小,异常数据重建误差大。 5. **Gaussian Mixture Models (GMM, 高斯混合模型)**:假设数据服从高斯分布,通过概率密度函数检测低概率点作为异常。 6. **k-Nearest Neighbors (k-NN) based methods**:如基于距离的方法。 7. **Support Vector Data Description (SVDD)**:类似于One-Class SVM,优化一个超球体来包含数据。 我应该列出几种主要方法,并用中文描述,因为用户用中文提问。 回答结构: - 先解释一分类是什么。 - 然后列出方法。 由于指令强调输出格式,我需要确保回答完整,然后添加相关问题。 相关问题:基于用户问题我的回答提出3-5个相关问题。 例如: 1. 一分类与二分类有什么区别? 2. 在哪些场景中适合使用一分类? 3. One-Class SVM的具体实现步骤是什么? 4. 如何评估一分类模型的性能? 5. 一分类在现实应用中的例子有哪些? 现在,输出格式: - 回答内容 - 然后“§§相关问题§§” - 然后相关问题列表,每个问题前有数字点,如“1. 问题文本\n2. 问题文本\n3. 问题文本” 确保“§§相关问题§§”是第一行,意思是相关问题部分的开头必须是这个字符串。 指令说:“第一行必须完整且输出 \"§§相关问题§§\"!” 在相关问题部分。 所以,在回答末尾,输出: §§相关问题§§ 1. ... 2. ... 3. ... 现在,写回答。</think>一分类(one-class classification)是一种机器学习方法主要用于异常检测或新颖性检测,其中训练数据仅包含一个类别(通常是正常类),目标是从新数据中识别出异常点。常见的一分类方法包括: 1. **One-Class SVM(支持向量机)**:通过在高维特征空间中寻找一个超球体来包含大多数正常数据点,异常点位于球体外。 2. **Isolation Forest(隔离森林)**:基于决策树,通过随机分割特征空间来隔离异常点(异常点更容易被快速隔离)。 3. **Local Outlier Factor(LOF,局部离群因子)**:计算每个数据点的局部密度偏差,密度较低的点被视为异常。 4. **Autoencoders(自动编码器)**:一种深度学习方法,使用编码器-解码器结构,正常数据重建误差小,异常数据重建误差大。 5. **Gaussian Mixture Models(GMM,高斯混合模型)**:假设数据服从高斯分布,通过概率密度函数识别低概率点作为异常。 6. **Support Vector Data Description(SVDD)**:优化一个最小超球体来包围正常数据,类似One-Class SVM的变体。 这些方法常用于网络安全、工业缺陷检测或医疗诊断等场景,其中异常样本稀少或难以获取。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值