
hadoop
weixin_42774642
这个作者很懒,什么都没留下…
展开
-
Spark性能调优-集群资源分配策略
展开开发完成Spark作业之后,我们在运行Spark作业的时候需要为其配置一些资源参数,比如num-executors,executor-memory等,这些参数基本上都是可以在spark-submit命令中作为参数设置,但是如何设置合适的参数值是需要我们权衡考虑的(集群资源,调优经验,任务大小等)。参数设置的不合适往往会导致集群资源得不到有效的利用,设置的太大可能会导致资源不够而引发异常,太...转载 2020-01-29 12:17:00 · 299 阅读 · 0 评论 -
HIVE优化
由于Hive的执行依赖于底层的MapReduce作业,因此对Hadoop作业的优化或者对MapReduce作业的调整是提高Hive性能的基础。所以我们可以通过一系列的调优方法,来提高大幅度地Hive查询的性能。1、启用压缩压缩可以使磁盘上存储的数据量变小,通过降低I/O来提高查询速度。查出所使用的Hive版本支持的压缩编码方式,下面的set命令列出可用的编解码器(CDH 5.8.x中的H...转载 2020-01-13 15:27:35 · 148 阅读 · 0 评论 -
大数据组件图谱
转载地址:http://blog.youkuaiyun.com/u010039929/article/details/70157376大数据组件图谱文件系统 数据存储 内存技术 数据搜集 消息系统 数据处理 查询引擎 分析和报告工具 调度与管理服务 机器学习 开发平台文件系统HDFSHadoop Distributed F...转载 2020-01-13 10:57:27 · 551 阅读 · 0 评论 -
Hadoop 01 配置
1. 安装好linux /boot 200M /swap 2g / 剩余 2. *安装VMTools3. 关闭防火墙 sudo service iptables stop sudo chkconfig iptables off4. 设置静态IP,改主机名 编辑vim /etc/sysconfig/network-scripts/ifcf...原创 2019-11-02 18:50:39 · 119 阅读 · 0 评论 -
Spark 配置
解压 root@master:~# cd /usr/localroot@master:/usr/local# tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz 文件夹重命名 root@master:/usr/local# mv spark-2.3.0-bin-hadoop2.7 spark 配置环境变...原创 2019-10-28 15:36:24 · 166 阅读 · 0 评论 -
Hadoop-04 Yarn与Hadoop新特性
1. Yarn产生背景2. 初识Yarn3. Yarn运行机制4. Hdfs NameNode HA5. Hdfs NameNode Federation6. Hdfs Snapshots7. WebHDFS REST API8. DistCp9. ResourceManager Restart10. ResourceManager HA Yarn产生背...原创 2019-10-23 12:40:21 · 221 阅读 · 0 评论 -
Hadoop-03 MapReduce
目录1. MapRecude概述2. MapReduce编程模型3. MapReduce WordCount编程实例4. MapReduce类型5. MapReduce输入格式6. MapReduce输出格式7. COmbiner8. Partitioner9. RecordReader10. Join的MapReduce实现11. 排序的MapReduce实现...原创 2019-10-23 11:03:41 · 141 阅读 · 0 评论 -
Hadoop-02 HDFS
详细过程请看官方文档: https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSetup.html1.HDFS优点2.HDFS缺点3.hdfs设计目标4.hdfs基本概念5.hdfs操作6.hdfs文件读取流程7.hdfs写入流程8.hdfs副本机制9....原创 2019-10-23 11:01:59 · 107 阅读 · 0 评论