于高山之巅,方见大河奔涌;于群峰之上,便觉长风浩荡
—— 24.3.24
一、数据挖掘和机器学习的定义
1.数据挖掘的狭义定义
背景:大数据时代——知识贫乏
数据挖掘的狭义定义:
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但是又潜在有用的信息或知识的过程
数据源必须是真实的、大量的、含噪声的
发现的是用户感兴趣的知识
发现的知识要可接受、可理解、可运用
并不要求发现放之四海而皆准地知识,仅支持特定的发现问题即可
从知识发现过程来看:可以把数据挖掘视为知识发现过程中的一个基本步骤,也就是数据分析环节
2.⭐Fayyad数据挖掘过程主要包含七个阶段:
①数据清理
②数据集成
③数据选择
④数据变换
⑤数据挖掘
⑥模式评估
⑦知识表示
3.数据挖掘和机器学习的定义
数据挖掘是一种深层次地数据分析方法,需要对涉及到地海量数据进行管理与分析
数据库领域的研究为数据挖掘提供数据管理技术,对于利用计算机对历史数据的分析,就是误码通常所说的机器学习
机器学习的定义:
机器学习是利用经验来改善计算机系统自身的性能,机器学习需要:
①通过数据分析建立模型
②利用算法对模型进行优化
③使计算机不断模拟人的学习行为来获取新的知识和技能,不断改善性能从而实现自我完善
机器学习方法构成地三元素:
①模型 ②策略 ③算法
可简单表示为:机器学习 = 模型+策略 + 算法
模型是从数据中抽象用来描述客观世界的数学模型
机器学习的根本目的是构建一个模型来描述历史的数据规律,通过这个模型对未来进行预测
策略是选择模型的标准
假设空间往往包括多个模型,策略来确定哪一个模型是最好的
算法是指学习模型的具体计算方法,即在确定寻找最优模型的策略后,机器学习的问题归结于最优化问题,其优化算法是指求解模型参数最优解的算法