
大数据
文章平均质量分 76
巴拉巴拉朵
这个作者很懒,什么都没留下…
展开
-
Spark参数优化
Spark参数优化spark conf 中加入一些参数,会加速shuffle过程,这里根据数据量实际大小可以调节下面一些参数,实践中会对于大数据量JOIN能加速20%以上spark.default.parallelism 是控制每个stage的默认stage数量,一般是对RDD有效,而参数spark.sql.shuffle.partitions是控制spark sql的shuffle分区数量spark.default.parallelism=1000spark.sql.shuffle.parti原创 2022-03-04 17:39:04 · 2591 阅读 · 0 评论 -
详解Hadoop中的LineReader的readLine函数
Hadoop中的LineReader的readLine函数可以说写的很不错,这里结合自己的理解,详细的添加了注释。该函数最精彩的一点就是保证了读取分片的时候不会出现断行,针对不同的文件系统,能够做到正确的判断行结束的位置,从而准确的读出文本中的一行内容。 1、如果当前字符是’\r’,虽然不能立即确定是不是读到行尾了(后面可能跟着’\n’),但是这行的内容已经确定了,就是行结束符的长度没有确原创 2016-08-06 20:12:27 · 3274 阅读 · 1 评论 -
Intellij IDEA构建Spark2.0以上工程示例
Intellij IDEA新建Spark2.0以上Maven工程示例长时间不用IDEA新建工程,新建的步骤都忘记了,再次记录一下,Spark新版中SparkSession需要依赖的包与SparkContext不一样,需要导入的jar包也是不同的。这里需要安装Java的JDK,新建工程会用到。首先,新建工程New -> Project选择Maven工程,选择JDK版本命名Group...原创 2019-03-27 20:03:37 · 4252 阅读 · 3 评论 -
信息熵笔记
信息熵的笔记信息熵的定义热力学中的热熵是表示分子状态混乱程度的物理量。数学家香农用信息熵的概念来描述信源的不确定度,信息熵是来度量信息的不确定性的,熵越大,表示不确定性越高;熵越小,表示不确定性越低。不确定性是概率 ppp 的减函数,独立的两个信息的熵是可以相加的,对数函数同时满足这两个条件,设事件 AAA 有取值 a1a_1a1,a2a_2a2…aNa_NaN,对应的概率为 p1p_1...原创 2019-04-09 17:36:07 · 586 阅读 · 0 评论 -
Spark的flatMap算子引发的数据倾斜问题
Spark的flatMap算子引发的数据倾斜问题问题背景Spark中有时候会用到flatMap算子来处理数据,flatMap把序列打平,即将每一条记录变成多条记录。这个算子在数据量大的时候经常会发生数据倾斜问题,你会发现一旦原始数据记录到达亿级、十亿级甚至百亿级时,这个算子会非常令人头疼,任务一直卡在最后一个或者几个task上面,毫无进展,GC日志会显示“not enough memory”,...原创 2019-06-03 15:52:53 · 1129 阅读 · 0 评论 -
Spark DataFrame学习笔记
Spark DataFrame学习笔记对于结构性数据,Spark的DataFame是一大利器,Spark的DataFrame相比于RDD来讲做了很多底层的优化,在数据处理上面非常有效。Spark使用了可扩展优化器Catalyst,因为知道每一列数据的具体类型,算子可以单独的在某个列上运作,优化器优化了Spark SQL的很多查询规则,速度对比可以看下网友的测试结果。DataFame的访问大体...原创 2019-07-29 20:32:27 · 401 阅读 · 0 评论