数据挖掘与计算科学中的金融算法应用
1. 云环境下非结构化文本数据的关联挖掘
在处理大规模非结构化文本数据时,为了评估不同类别项集之间的关联程度,开发了一种 MapReduce 算法。该算法具有独特的优势,采用条纹方法减少了 MapReduce 阶段的数量,并且仅需对数据集进行一次扫描。
1.1 条纹方法优势
条纹方法有两个显著优点:
- 减少键值对数量:所有以相同 X 项集开头的项集对都被打包到一个哈希映射中,从而显著减少了键值对的输出数量。
- 减少 MapReduce 作业数量:在一次 MapReduce 作业中即可同时获取项集对 XY 的 fXY 和 fX,降低了获取最终结果所需的总作业数。
1.2 实验设置
为了测试该 MapReduce 算法,进行了一系列实验。
- 数据获取 :从 TREC 2006 基因组学赛道获取了 33,959 篇文章,这些数据文件由该赛道从不同生物医学期刊出版商处收集而来。
- 数据预处理 :使用统一医学语言系统(UMLS)和 MetaMap 对数据进行预处理。UMLS 是一个包含健康和生物医学概念的大型词汇表和标准数据库,MetaMap 则是一个将文本拆分为短语并将每个短语映射到 UMLS 中标准概念的词汇工具。预处理后文件的总大小为 15.8G,这些文件作为 MapReduce 算法的输入。
- 实验平台 :使用亚马逊弹性 MapReduce(EMR)平台进行实验,该平台是亚马逊提供的基于网络的服务,利用 Hadoop 管理由亚马
金融算法与计算科学应用
超级会员免费看
订阅专栏 解锁全文
1069

被折叠的 条评论
为什么被折叠?



