83、数据挖掘与计算科学中的金融算法应用

金融算法与计算科学应用

数据挖掘与计算科学中的金融算法应用

1. 云环境下非结构化文本数据的关联挖掘

在处理大规模非结构化文本数据时,为了评估不同类别项集之间的关联程度,开发了一种 MapReduce 算法。该算法具有独特的优势,采用条纹方法减少了 MapReduce 阶段的数量,并且仅需对数据集进行一次扫描。

1.1 条纹方法优势

条纹方法有两个显著优点:
- 减少键值对数量:所有以相同 X 项集开头的项集对都被打包到一个哈希映射中,从而显著减少了键值对的输出数量。
- 减少 MapReduce 作业数量:在一次 MapReduce 作业中即可同时获取项集对 XY 的 fXY 和 fX,降低了获取最终结果所需的总作业数。

1.2 实验设置

为了测试该 MapReduce 算法,进行了一系列实验。
- 数据获取 :从 TREC 2006 基因组学赛道获取了 33,959 篇文章,这些数据文件由该赛道从不同生物医学期刊出版商处收集而来。
- 数据预处理 :使用统一医学语言系统(UMLS)和 MetaMap 对数据进行预处理。UMLS 是一个包含健康和生物医学概念的大型词汇表和标准数据库,MetaMap 则是一个将文本拆分为短语并将每个短语映射到 UMLS 中标准概念的词汇工具。预处理后文件的总大小为 15.8G,这些文件作为 MapReduce 算法的输入。
- 实验平台 :使用亚马逊弹性 MapReduce(EMR)平台进行实验,该平台是亚马逊提供的基于网络的服务,利用 Hadoop 管理由亚马

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值