数据挖掘:概念与技术 自学章节总结(一)

数据挖掘是從大量數據中提取有趣模式和知識的過程,涉及数据清理、集成、选择、变换、挖掘、模式评估和知识表示等步骤。主要模式包括类/概念描述、频繁模式、分类与回归、聚类分析和离群点分析。数据挖掘广泛应用于商务智能和搜索引擎等领域,并面临挖掘方法、用户交互等挑战。

1.什么是数据挖掘(Knowledge Discovery in Database)?
数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。

数据挖掘可以视为数据中的知识发现,知识发现的过程由以下步骤的迭代序列组成:
1-数据清理(消除噪声和删除不一致数据);
2-数据集成(多种数据源可以组合在一起);
3-数据选择(从数据库中提取与分析任务相关的数据);
4-数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式);
5-数据挖掘(基本步骤,使用智能方法提取数据模式);
6-模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式。)
7-知识表示(使用可视化和只是表示技术,向用户提供挖掘的知识)。

2.数据挖掘模式:
有趣的模式表示知识。一个模式是有趣的,如果它:1-易于被人理解;2-在某种置信度上,对于新的或检验数据都是有效的;3-是潜在有用的(例如,可以据之行动,或者验证了用户关注的某种预感);4-是新颖的。一个模式的有趣与否需要结合客观度量和客户的主观度量。
2-1-类/概念描述:特征化(data charaterization)与区分(data discrimination)(如数据立方体的OLAP上卷和下钻形式)。
2-2-频繁模式(frequency pattern)。挖掘频繁模式以发现数据中有趣的关联和相关性。
2-3-用于预测分析的分类和回归。用于预测类标号未知对象的类标号。
2-4-聚类分析,根据数据组群相似性进行聚类或分组。
2-5-离群点分析,罕见的事件可能比正常出现的事件更令人感兴趣,包含更大的信息量,离群点数据分析称离群点分析或异常挖掘。

(详细的模式总结会在后序章节持续更新……)

3.数据挖掘能做什么?
数据挖掘作为一个应用驱动的学科,在许多应用中获得巨大的成功,非常成功和流行的例子如:商务智能,搜索引擎。
对于商务,较好地理解分析顾客、市场和竞争对手的商务背景至关重要,商务智能(BI)技术提供商务运作的历史、现状、和预测视图。例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值