从数据挖掘到知识挖掘:探索新方法与技术
1. 数据挖掘现状与知识挖掘需求
在当今时代,全球计算机数据的产出呈现出爆炸式增长。大量的数据被生成,但我们处理这些数据并从中提取有用信息的能力却相对有限。这就产生了对新工具的强烈需求,这些工具能够自动从各种数据中生成有用的知识,并以人类易于理解的形式呈现出来。
目前,用于数据分析和提取有用模式及规律的工具主要依赖传统统计方法,如回归分析、数值分类学、多维尺度分析,以及较新的数据挖掘技术,如分类和回归树、关联规则和贝叶斯网络等。然而,这些技术存在一定的局限性:
- 统计分析 :虽然可以确定数据中变量之间的分布、协方差和相关性,但无法像人类一样从抽象的概念层面描述这些依赖关系,也不能给出因果解释。
- 数值分类学 :能够对实体进行分类并指定实体之间的数值相似度,但不能单独构建所创建类别的定性描述,也无法为将实体纳入特定类别提供概念上的理由。
- 分类和回归树 :可以表示输入和输出变量之间的关系,但表示能力有限,即使是概念上简单的关系也可能产生非常复杂的树。
- 关联规则 :在数据挖掘中很受欢迎,但表示能力也有限。
- 贝叶斯网络 :对许多应用很有吸引力,但通常依赖于人类对其结构的输入,并且只能自动确定属性或概念之间相对简单的相互关系。
这些方法通常仅使用数据中现有的属性,不会利用背景领域知识自动生成额外的相关属性,也无法确定属性对不同数据分析问题的相关性变化。因此,为了应对这些挑战,研究人员开始转向符号机器
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



