
hadoop
没有文化,啥也不会
这个作者很懒,什么都没留下…
展开
-
hadoop:MR报错Error in last collector was:java.lang.NullPointerException
报错26-01-2021 11:13:41 CST PbopPrimeNewCustomerDroolsData INFO - Error: java.io.IOException: Initialization of all the collectors failed. Error in last collector was:java.lang.NullPointerException26-01-2021 11:13:41 CST PbopPrimeNewCustomerDroolsData IN原创 2021-01-26 11:50:32 · 679 阅读 · 0 评论 -
parquet:查看parquet文件的schema信息
1.下载社区工具parquet-tools-1.6.0rc3-SNAPSHOT.jar2.查看schema信息(我在windows下执行的,jar包和parquet文件都在D盘)java -jar D:\parquet-tools-1.6.0rc3-SNAPSHOT.jar schema -d D:\part-00001-de10a7bd-e360-4c02-b4f4-1c30c6b91be3-c000.snappy.parquet结果:D:\>java -jar D:\原创 2021-01-11 19:30:07 · 3591 阅读 · 0 评论 -
Hadoop:MR以parquet格式保存文件
需求此前公司用MR程序解析json,将结果以text file保存在hive表的目录下。随着数据量增大,text file的性能逐渐跟不上,需要修改代码将文件格式修改成parquet。实现以下是以parquet保存结果的demo。将文本中的每行以空格分隔,第一列作为id(int),第二列作为name(string),直接保存到指定目录。[root@kudu1 job]# cat test.txt 1 xiaoming2 hanmeimei3 kangkang4 maria5原创 2020-12-06 23:41:47 · 1273 阅读 · 0 评论