
hdfs
Deegue
这个作者很懒,什么都没留下…
展开
-
Flume采集HDFS audit log日志至HDFS
1、背景HDFS的audit log产生数据量很大,速度也很快,在机器系统盘上必须立即持久化到HDFS,否则数据会被覆盖或者磁盘会打满。用于数据治理-HDFS废弃文件、Hive废弃表检测与清理。2、实现① Apache Flume官网下载最新版本的Flume。② 配置audit_log_hdfs.conf# 一个channel一个source 配置3个sinka1.sources = r1a1.sinks = k1 k2 k3a1.channels = c1# 数据来源,给c1配置s原创 2020-05-19 18:04:05 · 1802 阅读 · 0 评论 -
数据治理-HDFS废弃文件、Hive废弃表检测与清理
1、背景废弃下线的业务,直接在调度系统下线了相应的调度任务,而大量历史数据仍然残留,需要清除。去年集群迁移,导致很多表有HDFS数据但Hive上没有元数据,需要清除。2、思路① 扫描HDFS目录,到分区深度(比如/user/hive/warehouse/test.db/hdfs_audit/pt=20200416,深度为6)② 采集HDFS audit log(注意过滤扫描HDFS目录时产生的脏日志)③ 给audit log和HDFS目录建外部表,互相关联去重,获得HDFS近期未访问的文件列表。原创 2020-05-19 18:01:04 · 20176 阅读 · 0 评论 -
HDFS目录扫描
1、背景为了分析HDFS文件生命周期,需要获取一定深度的HDFS目录。2、实现 static final String hdfsBaseDir = "hdfs://nameservice1:8020"; static final int depth = 6; static FileSystem fs = null; static BufferedWriter out原创 2020-05-17 17:33:48 · 686 阅读 · 0 评论 -
Hadoop ViewFs 官方文档解读
官方文档地址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/ViewFs.html1、简介ViewFs是用来管理多个Hadoop namespace的一种方案。具体思路和一些Linux/Unix系统的挂载表十分相似。ViewFs可以生成某个namespace的视图,或者说某个集群的文件视图。简...原创 2020-02-27 16:58:46 · 2308 阅读 · 0 评论 -
hive 表的复制
1、首先需要明确分区表和非分区表可以通过查看建表信息命令:show create table 表名;查看是否有partition 分区信息。2、非分区表的复制将表t_temp复制到新建表t_copy:create table t_copy as select * from t_temp;3、分区表的复制分区表如原创 2018-02-01 19:06:15 · 778 阅读 · 0 评论 -
记一次Spark ThriftServer Bug排查
问题描述我们在用Spark ThriftServer(以下简称STS)用在查询平台时,遇到了以下报错:ERROR SparkExecuteStatementOperation: Error executing query, currentState RUNNING,org.apache.spark.sql.AnalysisException: org.apache.hadoop.hive.q...原创 2019-07-01 15:22:08 · 2575 阅读 · 0 评论