基于虚拟化部署的Hadoop生态系统门户的实现
1. 引言
如今,大数据变得越来越重要。随着计算机、网络和信息服务的快速发展,产生了大量的数据。许多行业将其视为重要资源,相关的研究、开发、存储、应用和环境也在不断扩展和更新。对于想要进入大数据领域的人来说,现在是个好时机,因为可用资源越来越多。
然而,普通用户在使用大数据工具时可能会遇到一些问题,比如如何准备适合大数据的环境,如何搭建整个环境。为了解决这些问题,我们致力于简化大数据平台的预操作和安装过程。我们的目标是直接在现有环境中部署大数据平台,无需专用设备,让用户选择熟悉的环境,直观地操作工具,减少错误几率,并使不同类型的作业能够一起执行。此外,我们还希望使文件管理、作业状态监控和作业调度更加容易,并且让高级用户能够自行添加功能。
在这项工作中,我们实现了适用于Hadoop生态系统的Web用户界面,并结合了虚拟化开发。具体目的如下:
- 将Web用户界面与整个Hadoop生态系统打包到虚拟机镜像文件中。
- 为该系统开发模块化的Web用户界面,通过引入Liferay Portal,允许用户根据需求修改或添加所需功能。
- 测量PC和笔记本电脑上虚拟机镜像的平均时间。
- 比较排序、单词计数和TeraSort的性能。
- 比较在我们的系统中使用门户和命令行操作Hadoop和Spark的性能。
2. 背景知识
2.1 大数据
大数据指的是由于数据量巨大或复杂度高,难以用传统方法或工具处理的数据集。它可以是从传感器收集的数据、服务器运行时生成的日志文件,或者是互联网上的用户行为记录和发布的信息。大数据的定义最初包含3
超级会员免费看
订阅专栏 解锁全文
829

被折叠的 条评论
为什么被折叠?



