
Hdfs
BabyFish13
不要急,慢慢来;控制好节奏,奋斗到底!
展开
-
Python从阿里云Oss拉数据写入Hive表并进行相关处理
数据的流向是:先从Oss拉取原始日志文件数据,根据Hive分区表建表规范放在HDFS上;然后将数据根据不同的过滤条件分别插入到对应的其他中间表;由于空间有限,原始数据转移处理好之后,立马删除从Oss上拉取下来的日志数据;之后,再分别对各中间表数据利用Hive正则进行切分和提取,并根据需求进行汇总统计及tableau展现。1、Hive目标库建表drop table if exists xx_原创 2017-03-20 12:26:58 · 1745 阅读 · 0 评论 -
Hadoop回收站机制
1、简介在HDFS里,删除文件时,不会真正的删除,其实是放入回收站/trash,回收站里的文件可以快速恢复。可以设置一个时间阀值,当回收站里文件的存放时间超过这个阀值或是回收站被清空时,文件才会被彻底删除,并且释放占用的数据块。2、回收站功能启用Hadoop的回收站trash功能默认是关闭的,所以需要在core-site.xml中手动开启。修改core-site.xml,增原创 2017-03-17 12:10:44 · 4500 阅读 · 0 评论 -
HDFS的常用操作
一、HDFS文件的权限与Linux文件权限类似r: read; w:write; x:execute,权限x对于文件忽略,对于文件夹表示是否允许访问其内容。如果Linux系统用户hdp使用hadoop命令创建一个文件,那么这个文件在HDFS中owner就是hdp。HDFS的权限目的:阻止好人错错事,而不是阻止坏人做坏事;HDFS相信,你告诉我你是谁,我就认为你是谁。二、HD原创 2017-03-17 14:20:23 · 1884 阅读 · 0 评论 -
分别用Shell和Python遍历查询Hdfs文件路径
1、使用Shell/Users/nisj/PycharmProjects/BiDataProc/getOssFileForDemo/getHdfsFilePath.sh#!/usr/bin/env bashfor file_path in `hadoop dfs -ls /tmp/oss_access/ | awk -F ' ' '{print $8}' ` do原创 2017-05-11 16:51:03 · 6648 阅读 · 0 评论 -
Hive文件存储格式
hive文件存储格式包括以下几类:1、TEXTFILE2、SEQUENCEFILE3、RCFILE4、ORCFILE(0.11以后出现)-支持有限5、Parquet-主要是用在Cloudera Impala上面其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;SEQUENCEFILE,RCFILE,ORCFILE格式的表不能...原创 2019-08-18 16:48:43 · 827 阅读 · 1 评论