
hadoop
大数据
allen sue
关注:数据从业者,爱好并致力于分析挖掘
邮箱:fish-work@163.com
展开
-
hdfs基本操作
查看文件夹大小 以下命令返回的占用大小的单位,均为:返回单位:Byte hdfs dfs -count -q 目录 hdfs dfs -count -q /user/hive/warehouse 第7值:文件夹大小(不包含副本) 第8值:文件夹名 hdfs dfs -count -q 目录 hdfs dfs -count /user/hive/warehouse 第3值:文件...原创 2019-12-23 11:19:19 · 298 阅读 · 0 评论 -
StreamSet操作
MySQL 新建pipline 新建 MySQL jdbc数据源 select * from tmp_class_code where id > ${OFFSET} order by id 数据源JDBC配置 配置当前工作面 指定错误记录存储位置,注意:该文件夹权限为:sdc:sdc(streamset运行节点) 新建hive metadata 配置:设置带用户密码的...原创 2019-11-29 13:48:19 · 1713 阅读 · 0 评论 -
python操作hdfs
from pyhdfs import HdfsClient from config import config class OperaHdfs(object): def __init__(self): self.hosts = 'nn1.example.com:50070,nn2.example.com:50070' self.fs = HdfsClie...原创 2019-05-14 13:04:19 · 179 阅读 · 0 评论