利用云环境中的非结构化文本数据挖掘两类项目集之间的关联
1. Noyce项目成果
Noyce学生在完成相关工作坊后,均表示对成为STEM教育工作者有了更深入的理解和更高的兴趣。通过对Noyce学生的访谈数据,证实了Noyce奖学金计划和实习计划的有效性,这些计划依托于坚实的项目管理和有力的指导。
2. 关联挖掘研究背景
在许多领域,如生物医学,研究两类项目集(例如药物和不良反应、基因和疾病)之间的关联是一项基础研究目标。研究者关注的是属于一个类别的项目集与属于另一个类别的不同项目集之间的关联强度。
关联挖掘任务既计算密集又数据密集。给定d个项目,可以生成$2^d$个项目集。以生物医学领域为例,Pubmed数据库包含超过2400万篇文章,每周还会新增约10000篇文章。
为应对计算和数据密集型问题,并行编程成为必要。MapReduce是一种用于在计算机集群上处理大规模数据集的并行编程范式。然而,现有的基于MapReduce的关联挖掘算法大多专注于挖掘频率高于阈值的频繁项目集,且存在多次扫描数据库、不处理非结构化数据以及不关注两类项目集之间关联等问题。
3. 本研究的独特性和优势
- 本研究实现的算法可应用于基于2×2列联表定义的任何有趣性度量。
- 算法仅需对数据集进行一次扫描,而非多次。
- 采用条纹方法减少MapReduce阶段的数量。
- 处理文档或文章中的大规模非结构化文本数据,专注于挖掘两类项目集之间的关联。
4. 问题形式化
我们的目标是从非结构化文本数据中
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



