
hadoop
文章平均质量分 70
生命不息丶折腾不止
这个作者很懒,什么都没留下…
展开
-
Hive中常用SerDe介绍
SerDe 是Serializer 和 Deserializer 的简称。它是 Hive用来处理记录并且将它们映射到 Hive 表中的字段数据类型。原创 2022-07-04 22:55:32 · 3435 阅读 · 1 评论 -
为什么HDFS文件块(block)大小设定为128M
我们在HDFS中存储数据是以块(block)的形式存放在DataNode中的,块(block)的大小可以通过设置dfs.blocksize来实现;在Hadoop2.x的版本中,文件块的默认大小是128M,老版本中默认是64M;寻址时间:HDFS中找到目标文件块(block)所需要的时间。原理:文件块越大,寻址时间越短,但磁盘传输时间越长;文件块越小,寻址时间越长,但磁盘传输时间越短。一、为什么HDFS中块(block)不能设置太大,也不能设置太小?如果块设置过大,一方面,从磁盘传输数转载 2021-12-13 17:03:53 · 6304 阅读 · 0 评论 -
hadoop2中Mappers和Reducers堆栈的大小配置
If a YARN container grows beyond its heap size setting, the map or reduce task will fail with an error similar to the one below:"Container [pid=14639,containerID=container_1400188786457_0006_01_0016转载 2016-12-21 19:13:16 · 3382 阅读 · 0 评论 -
调用JAVA API对HDFS文件进行文件的读写、上传下载、删除等操作代码详解
Hadoop文件系统 基本的文件系统命令操作, 通过hadoop fs -help可以获取所有的命令的详细帮助文件。 Java抽象类org.apache.hadoop.fs.FileSystem定义了hadoop的一个文件系统接口。该类是一个抽象类,通过以下两种静态工厂方法可以过去FileSystem实例: public static FileSystem.get(Configur转载 2017-09-05 15:38:15 · 10689 阅读 · 1 评论 -
API实现HDFS的读写数据流JAVA代码及流程详解
前言针对Java代码中实现对HDFS文件的读取(FSDataInputStream)与写入(FSDataOutputStream)在工作项目中经常使用;下边就读写流程做一下详细介绍。环境准备1.集群配置文件如图,一般对文件的读取,会将core-site.xml,hdfs-site.xml,slaves文件拷贝到项目的根目录下; 如果项目中涉及到MapReduce的,需要将mapred-site.x原创 2017-09-05 15:35:18 · 10323 阅读 · 0 评论 -
解决:Exception java.lang.SecurityException: class "javax.servlet.FilterRegistration"
java.lang.SecurityException: class “javax.servlet.FilterRegistration“‘s signer information does not match signer information of other classes in the same package原创 2017-03-24 11:05:02 · 3555 阅读 · 0 评论 -
HDFS文件写入FSDataOutputStream中的持久化hsync()不起作用详解
近期项目中用到实时抽取ActiveMQ中的爬虫数据到HIVE表中,但是在持久化数据到HDFS的时候,发现FSDataOutputStream.hsync()不能实时持久化,只能持久化第一条数据。 从一些文章中了解到,只有当HDFS中的block达到128M时,才可以使block处于completed状态,即持久化显示查到,故在代码测试中如果将流close掉,即可实现持久化,但是与业务场景不原创 2017-09-05 17:33:35 · 4183 阅读 · 0 评论 -
编译Spark2.+ 、Hadoop CDH 版本
参考官方文档:http://spark.apache.org/docs/latest/building-spark.htmlSpark2.2+移除了对hadoop2.5的支持!!!一、 Spark-2.1.2 编译环境准备1、hadoop-2.5.0-cdh5.3.6 2、安装并配置好Maven(本次编译使用apache maven 3.3.9) 3、 安装并配置JDK(本次编译使...原创 2018-01-11 19:42:04 · 1710 阅读 · 0 评论