
hadoop
zahuali
这个作者很懒,什么都没留下…
展开
-
hive日期维表 上周五到本周四为一周
直接上sql: select aa.dates,substr(dates,0,4) as years,substr(dates,0,7) as months,bb.weekss as weeks from ( select dates, concat(substr(dates,0,4),date_format(date_sub(dates, 5), '%w')) as weeks from tmp.datess ) aa left join ( select b.weeks, concat(min原创 2021-04-28 18:01:12 · 1833 阅读 · 2 评论 -
两集群拷贝 hdfs数据
将 a集群的数据 拷贝到b集群 hadoop distcp hdfs://10.30.7.8:8020/master/basis_report_data/ hdfs://10.30.7.2/hive_log/ 一些 常用参数补充 标识及描述 备注 -p[rbugp] 修改次数不会被保留。并且当指定 -update 时,更新的状态不会 被同步,除非文件大小不同(比如文件被重新创建)。 -i 忽略失败 就像在 附录中提到的,这个选项会比默认情况提供关于拷贝的更精确的统计, 同时原创 2021-02-24 15:13:20 · 245 阅读 · 0 评论 -
测试hadoop集群的读写能力
本人安装的是cdh 本次实验是执行 10个文件每个文件是128mb 拿三台测试集群进行测试 执行如下 写能力测试 hadoop jar /opt/cloudera/parcels/CDH/jars/hadoop-mapreduce-client-jobclient-3.0.0-cdh6.1.0-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB 得到的结果 20/05/26 16:22:23 INFO fs.TestDFSIO: -----原创 2020-05-26 16:41:44 · 259 阅读 · 0 评论 -
MapReduce整个流程的理解
1客户端(切片清单) job 要做五件事 最重要的是第二件 2map输入数据 利用lineRecordRedurer 方法做行读取器 一个切片的的信息: file:来自的文件 start: 偏移量 length: 大小 hosts: 位置信息 1 map输入对hdfs拿一个输入流 seek()方法 到自己map的偏移量位置 这样就不会读到其他map 2 调整切片的偏移量向下边...原创 2019-07-24 15:30:46 · 206 阅读 · 0 评论 -
CDH6.1 hdfs没有写入的权限
报错信息 在CDH中 将对勾去掉 即将该参数dfs.permissions 的true改成false 不行的话就去执行hadoop fs -chmod 777 /user/hadoop原创 2019-10-09 18:03:48 · 588 阅读 · 0 评论