
hadoop
今夕何夕-l
这个作者很懒,什么都没留下…
展开
-
Hadoop数据模型
Text 1.概念:文本文件通常采用CSV、JSON等固度长度的纯文本格式 2.优点: ①便于与其他应用程序(生成或分割文件)或脚本进行数据交换 ②易读性好,便于理解 3.缺点: ①数据存储量非常庞大 ②查询效率不高 ③不支持块压缩 SequenceFile 1.概念: ①SequenceFile按行存储二进制键值对数据,HDFS自带 ②二进制文件直接将<Key,Value>序列化到文件中 ③常用于在MapReduce作业之间传输数据 ④可用作Hadoop中小文件的打包存档(小文件合并) ⑤即使原创 2020-09-24 12:08:22 · 700 阅读 · 0 评论 -
Hadoop高可用集群搭建
HDFS-HA集群配置 1.HDFS-HA集群配置 (1)HDFS 高可用集群规划,请保证 Hadoop 完全分布式和 ZooKeeper 完全分布式环境已经安装完成 hadoop1 hadoop2 JournalNode JournalNode (2)hadoop1中配置core-site.xml [root@hadoop1 hadoop]# vi core-site.xml 修改为下: <configuration> <!-- 把两个 NameNode的地址组装成一个集群 m原创 2020-09-29 20:09:26 · 254 阅读 · 0 评论 -
Hadoop完全分布式的搭建
1.准备4台克隆已经安装hadoop的虚拟机 分别为master,hadoop1,hadoop2,hadoop3。 (1)修改ip地址如下: ①master:192.168.228.161 ②hadoop1:192.168.228.162 ③hadoop2:192.168.228.163 ④hadoop3:192.168.228.164 (2)修改主机名(vi /etc/hostname) 分别为master,hadoop1,hadoop2,hadoop3 (3)修改/etc/hosts文件 在每台linu原创 2020-09-29 10:38:51 · 113 阅读 · 0 评论 -
Hadoop生态系统框架详解(一):Hadoop框架
Hadoop框架 简述:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 主要解决海量数据的存储和海量数据的分析计算问题。 广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈 思想来源:Google三大理论(GFS 文件存储、MapReduce 计算、Bigtable) 发行版本:1.Apache 最原始基础的版本,适用于初学者 2.Cloudera 大型互联网企业中使用较多 3.Hortonworks 多用于文档较好 优势:1.高可靠性:Hadoop底层维护多个数据副原创 2020-09-23 12:04:32 · 1000 阅读 · 0 评论 -
CentOS7下hadoop环境的搭建(单机版)
1.准备一台纯净的CentOs7虚拟机并安装好jdk(推荐1.8.0),配置好静态ip,主机名,主机映射 2.解压hadoop-2.6.0-cdh5.14.2.tar.gz压缩包 #tar -zxvf hadoop-2.6.0-cdh5.14.2.tar.gz 3.设置hadoop文件软连接 #mv hadoop-2.6.0-cdh5.14.2 /opt/soft/hadoop260 4.配置环境变量 #vi /etc/profile 末尾添加下面字段: export HADOOP原创 2020-07-27 13:47:24 · 342 阅读 · 0 评论 -
学习手册:Hdfs在liunx下的命令
基本格式:hdfs dfs 1.对hdfs下一级目录的查看:#hdfs dfs -ls path 2.对hdfs目录的递归查看:#hdfs dfs -lsr path 3.创建单级目录:#hdfs dfs -mkdir /abc 4.创建多级目录:#hdfs dfs -mkdir -p /abc/123 5.在HDFS目录中移动文件:#hdfs dfs -mv /123/1.txt /abc/123 6.删除HDFS上的文件夹:#hdfs dfs -rm -r /abc/123 7.删除H..原创 2020-06-11 19:44:40 · 111 阅读 · 0 评论