数据挖掘算法与概率特性的探索
1. 数据挖掘背景与挑战
在过去几十年中,人类活动各领域产生的数字数据呈指数级增长,且增长速度远超处理能力的提升。这些数据不仅体量巨大,还具有动态性和高生成速率的特点。这使得设计能处理数据流特性的新型数据挖掘算法成为一项重大挑战。数据流挖掘已成为计算机科学的重要领域,在工程、工业、机器人、传感器网络、社交网络、垃圾邮件过滤和信用卡交易等众多领域都有应用。
2. 核心算法理念
与多数启发式方法不同,这里着重介绍具有数学理论依据的算法。不过,启发式方法也不能完全摒弃,因其常能带来令人满意的实际效果。所以,这些数学算法有时会进行启发式微调,以提高最终准确性。
3. 内容结构概述
整个内容分为四个主要部分:
- 第一部分:数据流挖掘基础概念
- 回顾机器学习基础概念和数据流特性,强调数据流的时变特性,即数据分布会随时间变化,这一现象被称为“概念漂移”。
- 简要讨论预处理流程,这在数据流算法中常是必要步骤。
- 介绍当前数据流挖掘方法的现状,重点关注数据分类问题。
- 第二部分:数据流挖掘中的决策树
- 关键决策点 :决策树归纳算法的关键在于选择节点的分裂属性,以及决定何时进行潜在分裂,这些决策基于分裂准则。
- 分裂准则类型 :提出基于不同杂质度量的分裂准则,包括基于信息熵的信息增益、基于基尼指数的基尼增益和基于误分类误差的分裂度量。每个准则都有相应的数学定理支持。
-
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



