
Hadoop
文章平均质量分 95
高达一号
这个作者很懒,什么都没留下…
展开
-
大数据_Hadoop_Parquet数据格式详解
之前有面试官问到了parquet的数据格式,下面对这种格式做一个详细的解读。原创 2023-07-31 19:33:19 · 2030 阅读 · 0 评论 -
Hadoop_HDFS_常见的文件组织格式与压缩格式
参考资料1.2.本文主要介绍下HDFS上的常见文件格式和压缩格式总结 :HDFS 中常见的文件存储格式HDFS中常见的文件压缩方式。原创 2023-07-27 13:58:29 · 3671 阅读 · 0 评论 -
CDH/YRAN_集群调优
参考文章 :1.yarn资源memory与core计算配置https://www.cnblogs.com/xjh713/p/9855238.html2.cdh之调整YARN(调优yarn 生产必做优化项)004https://blog.youkuaiyun.com/weixin_33788244/article/details/91669894内存相关参数 我们在运行使用CDH平台的时候,需要对YARN 的资源配置进行一定的调整。下面我们看一下相关的参数 ,主要的涉及到...原创 2020-05-27 16:54:10 · 611 阅读 · 0 评论 -
Hadoop_YARN 中 resourceManager / nodeManager / container log 存放日志位置
我们在使用 CDH 做集群管理的时候,非常的方便。下面,详细了解下主要几个节点的日志位置。1.ResourceManager log2.NodeManager log3.Container logResourceManager logResourceManager log 位置相关参数是hadoop.log.dir这里是 /var/log/hadoop-yarn进目录看一下[root@cdh-node2 hadoop-yarn]# pwd/var/log/h...原创 2020-05-26 23:58:48 · 5952 阅读 · 0 评论 -
Hadoop_MapReduce 运行流程 - MR job 运行的5个阶段
参考文章:https://www.cnblogs.com/cjsblog/p/8168642.htmlhttps://www.jianshu.com/p/461f86936972mapreduce运行的5个阶段mapreduce在运行的过程中大致概括为5个步骤1. [input阶段]获取输入数据进行分片作为map的输入2. [map阶段]过程对某种输入格式的一条记...原创 2020-04-05 21:56:03 · 1129 阅读 · 0 评论 -
Hadoop_ MR JOB 中排序发生在那几个阶段 ?
原文地址:https://blog.youkuaiyun.com/qq_42246689/article/details/84590215这是一道面试题,由于博主没有怎么写过 MR JOB . 最近在复习所学的知识,刚好整理到 排序问题了。1.map最后阶段进行partition分区,一般使用job.setPartitionerClass设置的类,如果没有自定义Key的hashCode...转载 2020-04-03 21:21:28 · 1004 阅读 · 2 评论 -
Hive_Hive 中常见的数据格式 与性能分析
参考文章:1. hive四种存储格式介绍与分析比较https://blog.youkuaiyun.com/zyzzxycj/article/details/79267635Hive 中有如下的数据文件格式, textfile ,sequencefile,avro,rcfile , orcfile , parquet, 自定义存储格式 。本文将介绍这几种数据文件格式的区别与效率...原创 2019-03-06 17:30:46 · 3672 阅读 · 1 评论 -
Hadoop - HDFS原理:HDFS 读写数据
HDFS 是做什么的? HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data ...转载 2019-01-25 12:01:22 · 306 阅读 · 0 评论 -
Hadoop hadoop yarn 指令相关参数详解
原文地址 : Hadoop之YARN命令http://www.aboutyun.com/thread-14930-1-1.html问题导读1.对于Hadoop集群用户有哪些有用的命令?2.打印需要得到Hadoop的jar和所需要的lib包路径使用的什么命令?3.对hadoop集群的管理员有哪些很有用的命令? 概述YARN命令是调用bin/yarn脚本文件,如果运行y...转载 2018-10-24 17:31:41 · 7574 阅读 · 1 评论 -
Hadoop _ 疑难杂症 解决1 - WARN util.NativeCodeLoader: Unable to load native-hadoop library for your plat
最近博主在进行Hive测试 压缩解压缩的时候 遇到了这个问题,该问题也常出现在日常 hdfs 指令中, 在启动服务 与 hdfs dfs 执行指令的时候 :都会显示该提示,下面描述下该问题应该如何解决: 参考文章:Hadoop之—— WARN util.NativeCodeLoader: Unable to load native-hadoop library...原创 2018-07-20 11:32:13 · 49284 阅读 · 11 评论 -
Hadoop _ Hdfs java.io.IOException: No FileSystem for scheme: hdfs 问题解决
原文地址:https://www.cnblogs.com/justinzhang/p/4983673.html在这篇文章中,介绍了如何将Maven依赖的包一起打包进jar包。使用maven-assembly打成jar后,将这个jar提供给其他工程引用的时候,报出如下错误:出现的错误:log4j:WARN No appenders could be found for logger (org.apa...转载 2018-05-02 21:20:39 · 5651 阅读 · 0 评论 -
Hadoop_Java API 操作HDFS
由于 Spark 中的 save 方法必须确保原始目录 不存在,而对于我编写的Job,不能确保指定存储的目录不存在,故需要将原来的目录删除。为此我封装了一套对HDFS 操作的 Java API项目的pom 文件:需要的组件<dependency> <groupId>org.apache.hadoop</groupId> <artifactI...原创 2018-05-02 20:23:58 · 443 阅读 · 0 评论 -
Hadoop_Hadoop访问权限解决办法
运行时发现出现用户没有权限的错误。推荐方法三:https://www.cnblogs.com/langgj/p/6595756.html解决方法:1.修改HDFS根目录的权限2.把Hadoop权限验证关闭,把hadoop.dll文件放到C:/windows/system32中,然后修改hdfs-site.xml文件,把验证关闭<property> <name>dfs...转载 2018-05-02 20:10:43 · 9570 阅读 · 2 评论 -
Hadoop_Hdfs ACL 权限控制详解
开启ACL权限控制Hadoop HDFS 默认没有使用 ACL 权限控制机制。这里介绍下如何开启 hdfs 的权限控制机制。第一次使用需要修改hdfs-site.xml 把以下配置加进hdfs-site.xml 中, 并重启NameNode.dfs.namenode.acls.enabledtrue 我们主要是通过 setfacl getfacl 这两个指令原创 2017-05-04 17:55:48 · 10571 阅读 · 0 评论 -
Hadoop_HDFS_hdfs 文件系统操作指令
本地做个备份, 下面的文章摘自Hadoop官网Link: http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-common/FileSystemShell.html下载文档时, 当前最新版本 3.0.0 beta这里介绍下常用的hdfs 的文件操作指令:文件系统操作命令的调用格式为转载 2016-11-02 11:46:58 · 3459 阅读 · 0 评论