小数据库中的关联规则挖掘:利用外部数据的新方法
1. 引言
核电厂事故可能引发环境灾难,造成人员、经济和生态损失。因此,自动监测和早期核事故检测的研究备受关注。为减少核事故,需要可靠信息来控制和预防此类事故。从核电厂有限的数据中提取有用模式至关重要,这对安全而言是必要的。这类知识通常从理论、实验和实际数据中获取,但核事故很少发生,在电厂的事故数据库中可能一无所获。所以,可靠地挖掘核电厂事故数据库还需依赖外部数据。
利用通过互联网从外部数据源收集的外部数据进行小数据库挖掘,为解决小数据库问题提供了可行途径。拥有大型数据库的公司在进行高利润决策时,除内部数据外,也可能希望利用外部数据。因此,在网络时代,利用外部数据进行应用已成为一个具有挑战性的话题。
关联规则描述了数据库中两个频繁项集之间的强相关性。由于挖掘的对象在数据库中频繁出现,关联规则对实际应用很有用。特别是,频繁项集有助于在大规模数据库中确定关联规则。但通过识别频繁项集从小数据库中提取关联规则是不现实的。例如,一个男孩想赢得女孩的爱并结婚,他可能无法从对女孩有限的了解中形成模式,他必须学习如何从他人那里获取常识、经验和范例。如果将这些信息融入他的数据中,他可能会拥有成功的婚姻。
当前的挖掘技术在处理小数据库时效果不佳。然而,为了安全起见,必须从核电厂的数据中提取有用模式,无论数据多么有限。因此,必须探索一种高效的小数据库挖掘模型,利用通过互联网从其他数据源收集的外部数据是解决该问题的可行方法。
幸运的是,个人和组织可以利用互联网提供的获取信息和知识的显著可能性。诸如 HTTP 和 HTML 之类的网络技术已经极大地改变了企业信息管理。企业可以通过内联网和互联网在企业内部和外部收集、管理
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



