数据查询与并行数据挖掘新视角
1. 数据查询分析相关概念
1.1 示例关联与容错模式
在数据查询分析中,有一个运行示例与Webb的自足项集密切相关。自足项集的一个标准是独立性,在我们以乘法为唯一运算符的单子结构下,也必然会对独立性进行筛选。不过,我们的单子结构只是一个示例,所以我们不像自足项集那样用统计测试来量化相似性,而仅使用参数ϵ。
同时,由于我们只追求近似查询,这与容错模式有明显关联。容错模式是一种普通模式(即查询),但几乎满足该模式的对象也会被计入结果。它和我们的方法都旨在减少模式数量,区别在于实现方式:容错模式通过将对象“分配”给模式来实现,而我们是通过发现模式中的结构来达成。
1.2 数据结构类型
智能或探索性数据分析的核心是在数据中寻找结构。这里的结构主要有两种类型:查询语法的数学结构和查询语义的计算结构,数据分析就在这两种结构的相互作用中进行。
- 数学结构 :在探索性研究中,我们假设查询集具有幺半群结构。幺半群在范畴论和类型论中是广为人知的结构。范畴论是数学中研究结构的最抽象分支,它的定理在很多数学分支中都适用,还能联系看似无关的数学分支。在类型论中,范畴论也起着重要作用,例如用于定义语义。在函数式语言中,幺半群常以单子的形式出现。此外,有观点认为关系型(或SQL)数据库是单子,而非SQL数据库是余单子。从范畴的角度看,我们的(朴素)算法适用于多种数据类型,只要数据具有有意义的幺半群结构,结构函数就有明确定义。
- 计算结构 :我们的结构函数以及整个方法与算法信息论中的知识压缩方法相契合。我们通过覆盖函数用EG对Q进行编
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



