
hadoop
文章平均质量分 84
蒙奇奇的故事
我可能是一个假程序员
展开
-
hdfs统计行数和统计文件大小
使用hdfs有时候需要统计文件行数和文件的大小1.hdfs下载文件夹中多个文件hadoop fs -get /目录 目录 2.统计多个文件行数hadoop fs -cat /文件* | wc -l 3.统计文件大小hadoop fs -count /文件* 统计单个文件 只需要精确到文件即可...原创 2018-07-23 11:51:35 · 6011 阅读 · 0 评论 -
Hadoop合并小文件
在运行hadoop程序时,从hdfs上读取数据,可能会由于小文件过多而影响内存资源大量被占用,从而导致hadoop集群崩溃,或者程序执行耗时过长。(在Hadoop的世界中,小文件是指文件大小远远小于HDFS块大小的文件,Hadoop2.0中,HDFS默认的块大小是128MB,所以,比如2MB,7MB或9MB的文件就认为是小文件。) Hadoop的应用中,Hadoop可以...原创 2018-07-23 12:10:11 · 2064 阅读 · 0 评论 -
hive 自定义函数UDF
1. 在Hive中给我们内置了很多函数进入hive客户端,查看hive内置函数:hive > show functions;OK!!=%&*+-/<<=<=><>===>>=^absacosadd_monthsandarray... 查看函数的具体方法:hive&...原创 2018-09-18 13:49:10 · 399 阅读 · 0 评论 -
hdfs文件目录中查找某个字符串所在位置
最近写一个MR处理数据时,遇到某一条文件乱码,需要查找改条记录的原始数据.由于文件全部保存在hdfs上面,因此需要查看该字符串在文件中的位置.hadoop fs -text $file |fgrep "$param" --color参数说明:$file 文件在hdfs上路径$param 需要查找的字段使用shell脚本循环遍历目录时:for file in `hado...原创 2018-09-25 19:00:03 · 5822 阅读 · 0 评论 -
Map-Reduce Framework参数说明
Map-Reduce Framework参数说明 Combine input records: Combiner是为了减少尽量减少需要拉取和移动的数据,所以combine输入条数与map的输出条数是一致的。 Combine output records 经过Combiner后,相同key的数据经过压缩,在map端自己解决了很多重复数据,表示最终在map端中间文件中的所有条目数 ...原创 2018-11-13 16:53:33 · 1151 阅读 · 0 评论