- 博客(3)
- 收藏
- 关注
原创 hive str_to_map 的使用
hive str_to_map 的使用官方介绍案例官方介绍map<string,string>str_to_map(text[, delimiter1, delimiter2])Splits text into key-value pairs using two delimiters. Delimiter1 separates text into K-V pairs, and Delimiter2 splits each K-V pair. Default delimiters
2020-07-17 10:56:38
6319
原创 spark 过滤大批量数据 BloomFilter
1.BloomFilter介绍Bloom Filter是一种空间效率很高的随机数据结构,它的原理是,当一个元素被加入集合时,通过K个Hash函数将这个元素映射成一个位阵列(Bit array)中的K个点,把它们置为1。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检索元素一定不在;如果都是1,则被检索元素很可能在。这就是布隆过滤器的基本思想...
2019-05-18 11:09:38
2692
原创 spark.yarn.executor.memoryOverhead 解决办法
spark.yarn.executor.memoryOverhead 解决办法在 spark 运行脚本中加入 --conf spark.yarn.executor.memoryOverhead=6000单位是M 可以根据自己的情况调节大小这个问题主要是因为堆外内存 太小 不够JVM自身的开销 的开销...
2019-05-18 10:21:57
12639
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人