
hadoop
文章平均质量分 65
京河小蚁
不进则退
展开
-
hadoop——突然的想手写一下WordCount程序了,好久没写过了
map端处理逻辑,写了多个mr程序,也写了很多spark、flink程序,基本上套路都是这样的,先是把数据切片,作业的每个task拉取切片,处理一个拉一个,达到缓存设定的临界值,会触发写到磁盘,这个阶段会产生排序,其实就是先把数据进行etl,方便后续的更多类型的操作,一般广义上在reduce阶段就是聚合了。突然的想手写一下WordCount程序了,好久没写过了,就写官网上的那个吧,手写调试最后通过了,但是为了不耽误别人以及传播正确知识点,呈现在大家面前的是能够运行的。看一下reduce程序。...原创 2022-07-24 14:52:48 · 390 阅读 · 0 评论 -
hdfs常用命令和配置
#hdfs 排序hdfs dfs -ls /btc/target_table/addressFlow2 | sort -r -k6,7 | more#hdfs 统计行数hdfs dfs -cat /target_table/SQL/account_book/overview/0/*.csv | wc -l原创 2019-06-11 23:26:04 · 331 阅读 · 0 评论