数据挖掘简答知识点总结

本文总结了数据挖掘的基础知识,包括数据挖掘的原因、定义、数据仓库的角色,以及关联知识、数据探索和预处理的重要性。数据挖掘通过数据、信息和知识的转化,发现数据间的关联性和趋势。数据预处理涉及数据探索、数据集成、数据变换和归约,其中维归约如PCA算法是常用方法。此外,介绍了决策树算法和ID3的优缺点,以及分类评估指标TP、FP、TN和FN的概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

绪论

为什么进行数据挖掘?
(1)已获得的大量数据往往是数据丰富但信息贫乏的
(2)计算设备变得廉价且功能强大
(3)没有强大的工具的话,数据量已经超过人类的理解能力
(4)数据收集存储的速度越来越快
(5)传统技术已经不适用于原始数据
(6)数据挖掘有助于科学研究
什么是数据挖掘?
从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息或知识的非平凡过程。
数据源必须是真实的、大量的、含噪声的;
发现的是用户感兴趣的知识;
发现的知识要可接受、可理解、可运用;
并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

数据挖掘从商业的角度可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法

数据仓库:
高质量的挖掘结果依赖于高质量的数据,数据仓库为数据挖掘准备了良好的数据源,因此,数据仓库是数据挖掘的最佳环境。
挖掘什么样的知识?数据(Data) 、信息(Information)和知识

数据挖掘技术是如何把它们有机的结合在一起的?
从数据、信息和知识三个层面上看,数据是最原始的未经组织和处理的信息源 。信息或称有效信息是指对人们在某些方面有价值的东西。知识是一种现实世界信息的抽象和浓缩

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值