数据挖掘技术与应用全解析
1. 神经网络在数据挖掘中的应用与特点
神经网络是分类和回归算法中较为复杂的一类。尽管训练神经网络可能耗时较长,但训练好的网络能快速对新案例进行预测,例如实时检测欺诈交易,还可用于聚类等数据挖掘应用,以及手写识别、机器人控制等其他领域。
不过,神经网络也存在一些局限性。其输出纯粹是预测性的,模型缺乏描述性组件,导致其决策难以理解,常被视为“黑箱”技术。而且,神经网络只能直接处理数值数据,因此无论是自变量还是因变量列中的非数值数据,都必须先转换为数值才能使用。
从原理上讲,神经网络基于早期的人类大脑功能模型,本质上是一个根据一组输入值计算输出的数学函数。网络范式便于将大函数分解为一组相关的子函数,并能使用各种学习算法来估计子函数的参数。
2. 概念聚类与分类
大多数聚类和分类方法依赖于数值计算相似度或距离度量,因此常被称为基于相似度的方法。这些方法用于分类分配的知识通常是一个不透明的算法,本质上是一个黑箱。
相比之下,概念聚类和分类则开发了一种定性语言来描述用于聚类的知识,主要以生产规则或决策树的形式呈现,具有明确性和透明度。例如,归纳系统C5.0(以前的C4.5)能够自动从数据库中生成决策树和生产规则。决策树和规则具有简单的表示形式,使用户相对容易理解推断出的模型。
然而,特定的树或规则表示方式可能会显著限制其表示能力。此外,现有的方法主要针对变量仅取分类值的问题领域,如颜色为绿色和红色,在处理取数值的变量时效果不佳。虽然将数值变量离散化为分类描述是一种有用的方法,但还需要更强大的离散化技术。
3. 依赖建模
依赖建模用于描述变
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



