大数据存储与使用:多行业应用与未来展望
1. 大数据存储技术概述
大数据存储技术正处于蓬勃发展阶段,众多技术已达到一定成熟度,被各行业早期采用者广泛应用或计划应用。这些技术具有更好的可扩展性、更低的成本和操作复杂性,为高效管理各种规模的数据提供了有力支持。
2. 各行业大数据存储应用案例
2.1 医疗信息分析平台
Treato采用基于Hadoop的系统,利用HBase存储待抓取的URL列表。通过自然语言处理结合专有本体对这些URL上的帖子进行分析,对每个帖子进行索引、计算统计数据并更新HBase表。该解决方案存储了超过150TB的数据,包括来自数千个网站的11亿条在线帖子,涉及11000多种药物和13000多种病症。Treato每天能够处理1.5 - 2亿条用户帖子,借助Hadoop,执行时间至少提高了6倍,能够在一天内响应客户关于新药的请求。
操作步骤:
1. 搭建基于Hadoop和HBase的系统架构。
2. 收集待分析的URL列表并存储到HBase中。
3. 运用自然语言处理和专有本体对URL上的帖子进行分析。
4. 对每个帖子进行索引,计算统计数据并更新HBase表。
2.2 金融行业:集中式数据中心
金融行业面临数据量增长和新数据源增多的挑战,如社交媒体数据。企业拥有数PB的数据,例如摩根大通存储了超过150PB的在线数据,并使用Hadoop进行欺诈检测。新数据源增加了数据的数量和多样性,非结构化数据可用于客户关系管理、风险管理和算法交易。将所有数据整合到集中式数据中心可以进行更详细的分析,提供竞争优势。传统系统难以应对数据规模、成本和复杂
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



