
hive
文章平均质量分 87
Super乐
闭上自己的嘴,抬起自己的腿,走自己的人生路。
展开
-
hive 的map数和reduce如何确定
一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例:a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数...原创 2021-02-08 19:34:09 · 1681 阅读 · 0 评论 -
hive 列转行 和 行转列
列转行测试数据的格式如下:hive> select * from col_lie limit 10;OKcol_lie.user_id col_lie.order_id104399 1715131104399 2105395104399 1758844104399 981085104399 2444143104399 1458638104原创 2021-02-07 18:44:10 · 1136 阅读 · 0 评论 -
hive SQL 中的正则表达式
正则的通配符简介^ 表示开头$ 表示结尾. 表示任意字符* 表示任意多个/ 做为转意,即通常在"/"后面的字符不按原来意义解释,如/b/匹配字符"b",当b前面加了反斜杆后//b/,转意为匹配一个单词的边界。 -或- 对正则表达式功能字符的还原,如"*"匹配它前面元字符0次或多次,/a*/将匹配a,aa,aaa,加了"/"后,/a/*/将只匹配"a*"。 ^ 匹配一个输入或一行的开头,/^a/匹配"an A",而不匹配"An a" $ .原创 2021-02-07 17:35:19 · 4381 阅读 · 0 评论