
大数据
文章平均质量分 63
comli_cn
算法工程师,微信公众号:李歪理
展开
-
Hive常用操作
1. locate判断 name 字段中是否包含字符串 “aaa”:select * from temp where locate("aaa", name) > 0;ocate(字符串,字段名),如果包含,返回大于0的index位置;否则,返回0;原创 2021-11-24 14:51:21 · 2566 阅读 · 0 评论 -
HIVE截取字符串
1. 已知字符串长度的截取方法形式:select substr(列名, int start, int len)例子:[{'a':'1', 'b':'2', 'c':'3'}]select substr(列名, 3, 7)结果:'a':'1'2. 截取特殊字符附近的字符串比如想要截取[{'a':'1', 'b':'2', 'c':'3'}]中去掉[]剩下的字符串,在不知道上面字符串长度的情况下可以使用:select substr(列名, 2,instr(列名, '}')-1)原创 2021-07-30 20:41:51 · 9386 阅读 · 0 评论 -
Hadoop如何设置map的数量和大小
1. map数目的计算方法hadoop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。为了方便介绍,先来看几个名词:block_size : hdfs的文件块大小,可以通过参数dfs.block.size设置total_size : 输入文件整体的大小input_file_num :原创 2021-08-05 12:15:33 · 3744 阅读 · 0 评论