
Hadoop
文章平均质量分 64
訾零
做喜欢的事,过玩味的生活。
展开
-
Apache大数据相关组件部署
组件总览 Zookeeper部署 创建目录 解压 环境变量 配置服务器编号 配置 同步 启动 Hadoop部署 解压 环境变量 创建目录 集群配置 core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml workers 启动 初始化zkfc 启动集..原创 2022-05-26 01:00:01 · 2554 阅读 · 1 评论 -
大数据平台基础环境准备
之前已经记录过,这里再记录一下,相以便快速使用。安装依赖sudo yum install -y epel-release psmisc nc net-tools rsync vim lrzsz ntp libzstd openssl-static tree iotop git配置用户和权限添加新用户 hdfs,并赋予 root 权限。如果使用 hdfs 用户作为 Hadoop 默认用户,需要将 hdfs 用户也配置免密登录。adduser hdfspasswd hd.原创 2022-05-26 00:45:15 · 788 阅读 · 0 评论 -
CDH6.0.1环境Hadoop集群性能测试
本次主要是对新集群的性能测试,测试环境:系统 环境 台数 CPU 内存 硬盘 Centos7.3 CDH6.0.1 3台 32 64G 16T Hadoop自带的测试工具:Hadoop基准测试首先,对服务器做一下测试,主要是磁盘I/O和网络I/O。磁盘I/O读测试hdparm用于查看硬盘的相关信息或对硬...原创 2019-07-31 17:20:31 · 4971 阅读 · 6 评论 -
CDH环境HDFS权限问题
CDH环境下Hadoop平台最高权限用户是hdfs,属于supergroup组。默认HDFS会开启权限认证,所以操作时,需要将root用户切换到hdfs用户,否则会报错。目录设置验证如启动spark-shell切换hdfs用户这样每次操作都需要切换不太方便,如yarn在调度时,通常会生成一些临时文件,执行完毕会删除,如果权限不够会导致出错。H...原创 2019-07-30 12:03:09 · 8089 阅读 · 0 评论 -
Hadoop数据迁移工具DistCp
最近需要做两个集群之间的数据迁移,这里记录一下DistCp用法。官方说明1. 概述DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。DistCp可以在千兆网络下实现TB/小时级别数据拷贝,对于大数据环境的迁移效率很高。注意:需要源HDFS集群的/etc/hosts中添加目标HDFS集...原创 2019-07-05 17:11:31 · 1975 阅读 · 0 评论 -
Centos7.3安装CDH6.0.1
CDH6.0以上版本安装都适用,已经成功搭建CDH6.0.1和6.2企业级平台。版本类型 版本 下载 Linux Centos7.3 CDH CDH6.0.1 CM官方下载 CDH官方下载 JDK jdk-8u211 网盘下载 数据库 MySQL5.7.27 官方下载 JDBC mysql-c...原创 2019-06-27 15:38:47 · 1372 阅读 · 1 评论 -
大数据组件部分优化
主要是对于CDH平台上的大数据组件优化,后续再添加。目录1. HDFS2. Yarn3. Flume4. Kafka5. Hive6. Sqoop7. 其他优化:1. HDFS1. 设置HDFS多个存储目录原理:将数据分不到多个磁盘,不会只占用某个磁盘,导致某些磁盘频繁使用,某些磁盘空闲。优化:dfs.datanode.data.dir...原创 2019-07-03 17:56:47 · 792 阅读 · 0 评论 -
Hadoop基准测试
利用hadoop自带基准测试工具包进行集群性能测试,测试平台为CDH5.16上hadoop2.6版本目录 /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/使用TestDFSIO、mrbench、nnbench、Terasort 、sort 几个使用较广的基准测试程序hadoop-mapreduce-client-jobclient-t...原创 2019-06-27 16:11:14 · 3702 阅读 · 1 评论 -
CDH6安装Lzo
Lzo是目前Hadoop平台使用很广泛的压缩格式,但需要另外安装,在这里记录一下。使用的版本是Centos7.3,CDH6.0.1。官方安装文档官方配置文档查看Hadoop支持的压缩格式hadoop checknativeLzoCodec和LzopCodec区别两种压缩编码LzoCodec和LzopCodec区别: 1. LzoCodec比...原创 2019-07-02 14:02:53 · 2285 阅读 · 4 评论 -
Snappy、Lzo、Gzip、Bzip2比较
Hadoop上常用压缩格式对比:压缩格式 扩展名 多文件 支持切片 压缩比排行 解压速度排行 工具 hadoop自带 gzip .gz 否 否 2 3 gzip 是 bzip2 .bz2 是 是 1 4 bzip2 是 lzo .lzo 否 ...原创 2019-07-02 12:25:21 · 1984 阅读 · 0 评论