MapReduce设计模式的未来与布隆过滤器应用
1. MapReduce的发展现状与趋势
MapReduce正处于快速发展阶段,每天都有新特性和新系统涌现,新用户也大量涌入。随着用户数量的增加,专家数量也在增多,他们将推动设计模式的社区文档建设,不仅会分享新的模式,还会完善现有的模式。
1.1 数据性质的趋势
1.1.1 图像、音频和视频
数据性质的一个明显趋势是图像、音频和视频分析的兴起。这类数据文件通常很大,适合使用MapReduce的分布式系统。但作为文本处理平台,MapReduce在处理这类数据时存在一些挑战。例如,视频数据包含随时间变化的彩色像素,还可能有音频轨道,而MapReduce遵循一维磁带范式,难以将多维数据按逻辑分割成记录和输入分片。随着多维数据的普及,可能会出现更多相关的设计模式,或者新系统会填补这一空白,如专门处理多维数据的开源分析数据库SciDB。
1.1.2 流数据
传统上,MapReduce是批量分析系统,但流分析似乎是自然的发展方向。在许多生产环境的MapReduce系统中,数据不断流入,然后按间隔进行批量处理。这种方式存在不便之处,一是一次性处理大量数据会消耗资源,二是MapReduce系统依赖较大的块大小,而流数据是逐记录到来的。为解决这些问题,可能会出现新的模式和系统。作者曾考虑过一些“流模式”,但都不够成熟,如特殊的RecordReader和将作业拆分为多个单映射任务作业。
1.2 YARN的影响
YARN(Yet Another Resource Negotiator)是Hadoop MapReduce的重要改进,目前版本
超级会员免费看
订阅专栏 解锁全文
53

被折叠的 条评论
为什么被折叠?



