- 博客(4)
- 收藏
- 关注
原创 搭建Hadoop HA高可用集群
格式化其中一台namenode,启动namenode,另外一台namenode同步第一台。/etc/profile 会加载/etc/profile.d里面的内容。参考之前的文章建立虚拟机、关闭防火墙等。分发profile_hadoop.sh。三台节点都启动journalnode。分发java8和hadoop340。
2025-01-04 00:16:59
108
原创 使用 Hadoop Streaming 工具编写 (Python等语言) MapReduce 程序
Hadoop stream提供了一种使用标准输入和输出流在 Hadoop 中处理数据的方式,使其具有灵活性和语言无关性。来自 HDFS 的输入数据包含的所有的文件块会由 mapper 全部处理成键值对后,shuffle 过程会把相同键输入给 reducer,再由 reducer 对键值对进行聚合。The example provided is using Python, 示例使用 Python 语言编写 mapper 和 reducer。之前文章中 HDFS 已创建输入文件/input/words.txt。
2024-05-15 15:00:42
908
1
原创 VMware 虚拟机安装 Hadoop/Hive 集群详细教程 (Macbook M1/M2) (第二部分)
Hive 是一个基于 Hadoop 的数据仓库框架。mysql 作为 hive 元数据管理
2024-05-13 16:33:51
1238
3
原创 VMware 虚拟机安装 Hadoop/Hive 集群详细教程 (Macbook M1/M2) (第一部分)
以安装 hadoop2 虚拟机作为例子Select ISO Image,选择宿主机上的镜像文件Select OS,选择 Debian10 操作系统Select install CentOS7,选择安装Select start up disk,选择硬盘Select GNOME GUI,选择安装桌面Select timezone,选择时区Enable network and set host name,开启网络,设置主机名Create user hadoop,创建 hadoop 用户。
2024-05-11 15:32:53
1966
5
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人