1、数据挖掘算法与概率特性的探索

数据挖掘算法与概率特性的探索

1. 数据挖掘背景与挑战

在过去几十年中,人类活动各领域产生的数字数据呈指数级增长,且增长速度远超处理能力的提升。这些数据不仅体量巨大,还具有动态性和高生成速率的特点。这使得设计能处理数据流特性的新型数据挖掘算法成为一项重大挑战。数据流挖掘已成为计算机科学的重要领域,在工程、工业、机器人、传感器网络、社交网络、垃圾邮件过滤和信用卡交易等众多领域都有应用。

2. 核心算法理念

与多数启发式方法不同,这里着重介绍具有数学理论依据的算法。不过,启发式方法也不能完全摒弃,因其常能带来令人满意的实际效果。所以,这些数学算法有时会进行启发式微调,以提高最终准确性。

3. 内容结构概述

整个内容分为四个主要部分:
- 第一部分:数据流挖掘基础概念
- 回顾机器学习基础概念和数据流特性,强调数据流的时变特性,即数据分布会随时间变化,这一现象被称为“概念漂移”。
- 简要讨论预处理流程,这在数据流算法中常是必要步骤。
- 介绍当前数据流挖掘方法的现状,重点关注数据分类问题。
- 第二部分:数据流挖掘中的决策树
- 关键决策点 :决策树归纳算法的关键在于选择节点的分裂属性,以及决定何时进行潜在分裂,这些决策基于分裂准则。
- 分裂准则类型 :提出基于不同杂质度量的分裂准则,包括基于信息熵的信息增益、基于基尼指数的基尼增益和基于误分类误差的分裂度量。每个准则都有相应的数学定理支持。
-

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值