数据集成

数据挖掘需要数据集成---合并来自多个数据库的数据

一.模式集成和对象匹配

确定一个源的ID指的是另一个源的某字段(根据属性的元数据(字段名,含义,数据类型,属性的取值范围))

二.属性冗余

1.属性是连续数值计算相关系数(皮尔逊积矩系数)

N是元组的个数,ai和bi 分别是元组i中A和B的值分别是A和B的均值分别是A和B的标准差是AB叉积的和

2.属性是离散数据卡方值

A有c个不同值 B有r个不同值 (Ai,Bj)= (A=ai,B=bj)



其中oij为(Ai,Bj)的观测频度即实际计数eij为期望频度

三.数据值冲突的检测预处理

在集成时 ,关注数据结构,确保源系统中的属性函数依赖和参照约束与目标系统中的匹配



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值