
Spark
文章平均质量分 70
qq_22253209
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark中reduceByKey、groupByKey和combineByKey的区别
在spark中,reduceByKey、groupByKey和combineByKey这三种算子用的较多,其中:•reduceByKey用于对每个key对应的多个value进行merge操作,最重要的是它能够在本地先进行merge操作,并且merge操作可以通过函数自定义;•groupByKey也是对每个key进行操作,但只生成一个sequence,groupByKey本身不能自定义函数,需要先用...原创 2018-06-10 15:57:19 · 9612 阅读 · 1 评论 -
Spark2 sparkSession使用
sparkSession使用:package com.jdjr.city.demoimport org.apache.spark.sql.SparkSession/** * @Auther: hongwei * @Date: 2018/11/9 16:31 * @Description: SparkSession使用 */object Test4 { def m...原创 2018-11-09 17:00:01 · 1098 阅读 · 0 评论 -
hive对100亿数据的处理
项目需求:需要对人员轨迹信息进行处理,而且人员信息与运营商网络有关。开始,hive的计算引擎是Spark,由于计算资源有限(只有3台机器),sql运行的过程中出现各种OOM,于是将计算引擎换位MR,数据按月计算。在计算的过程中,使用了3个UDF函数。原始数据如下:(1)设备轨迹信息表 (2)设备运营商网络表 (3)原始表关联add jar /home/hongwe...原创 2025-02-08 10:09:59 · 309 阅读 · 0 评论