
hadoop
SW_LCC
这个作者很懒,什么都没留下…
展开
-
Hadoop误删文件后恢复
删除文件不小心把hdfs里面的文件夹删除了,执行命令如下:hdfs dfs -rm -r /user/hadoop/analyse/game到回收站中找到文件设置回收站 <property> <name>fs.trash.interval</name> <value>1440</value> </property>如果有设置回收站,hadoop删除文件时,不会立即删原创 2020-11-05 21:42:12 · 2293 阅读 · 1 评论 -
Container killed on request. Exit code is 143
升级hadoop集群后,跑hive sql发现任务一直报错跑不了。在hive的cli界面执行sql,提示错误ERROR: FAILED: Execution Error,return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask查看详细的日志,发现该job分发到4个节点执行,其中都报相同的错误,提示类似:Current usage: 1GB of 1 GB physical memory used; 2.5 GB of 1.1 G原创 2020-11-03 17:50:49 · 810 阅读 · 0 评论 -
《Hadoop权威指南》 Hadoop文件系统操作接口
FileSystemFileSystem时文件系统api,通过其对HDFS文件系统进行操作。FileSystem获取方式: - public static FileSystem get(Configuration conf) throws IOException; - public static FileSystem get(URI uri, Configuration conf) thr...原创 2020-03-07 18:44:01 · 284 阅读 · 0 评论 -
《深入HDFS》--HDFS缓存
HDFS缓存hdfs缓存是为了减少对数据的重复访问请求,hdfs的缓存通过缓存块实现。缓存块缓存块由普通文件块转换得来。缓存指在要访问的dataNode的内存中,访问时命中缓存则无需读取磁盘,可以大大提高用户读取文件的速度。缓存块的生命周期在缓存块中,其内部枚举State代码如下: private static enum State { CACHING, ...原创 2020-01-20 17:26:15 · 689 阅读 · 0 评论 -
《深入HDFS》HDFS异构存储
异构存储异构存储是Hadoop2.6.0版本出现的新特性,可以根据各个存储介质读写特性不同进行选择。例如冷热数据的存储,对冷数据采取容量大,读写性能不高的存储介质如机械硬盘,对于热数据,可使用SSD硬盘存储。在读写效率上性能差距大。异构特性允许我们对不同文件选择不同的存储介质进行保存,以实现机器性能的最大化。异构类型1.RAM_DISK(内存)2.SSD(固态硬盘)3.DISK(机械...原创 2020-01-19 21:00:56 · 329 阅读 · 0 评论 -
《深入HDFS》--HDFS内存存储
内存存储HDFS的数据存储由多种,内存存储是其中的一种,其以机器作为数据存储的载体。内存可能存储的缺点:1.数据临时保存在内存中,服务一旦停止(或宕机),数据就丢失2.数据存在内存中,服务停止时持久化到磁盘为避免以上出现的问题,选用异步持久化的方式处理,即在内存存储新数据时,持久化最旧的数据。HDFS使用LAZY_PERSIST内存存储策略:异步存储步骤如下:l )对目标文件目录...原创 2020-01-19 18:07:11 · 259 阅读 · 0 评论 -
hdfs和本地文件之间复制
从hdfs拷贝文件到本地使用 get命令hdfs dfs -get -hdfsDirFile -localDir的格式 如:hdfs dfs -get /data/warehouse/1.log /data/user/或hadoop fs -get /data/warehouse/1.log /data/user/使用 copyToLocal命令...原创 2020-01-08 19:52:55 · 1809 阅读 · 0 评论 -
eclipse添加hadoop插件连接HDFS
eclipse添加hadoop插件连接HDFS下载hadoop插件首先需要下载hadoop插件,可以在Github中搜hadoop-eclipse-plugin就能找到该插件。这里提供一个下载链接前往下载提取码为: sz0t将该插件放在eclipse的plugins目录下即将hadoop-eclipse-plugin-2.5.1.jar包拷贝到eclipse/plugins/文件夹下。记...原创 2019-02-25 23:26:49 · 934 阅读 · 0 评论 -
flume AvroSource和AvroSink使用
AvroSourceAvro Source是flume主要的RPC Source,能接收其他节点的Avro Sink或者用Flume SDK发来的数据,常与Avro Sink结合作为缓冲使用。关于Avro,这篇文章有作介绍,链接:Avro使用详解AvroSource配置参数配置参数默认值描述type-source类型bind-ip地址,0.0.0.0绑...原创 2019-08-25 13:46:08 · 1666 阅读 · 3 评论