
spark
文章平均质量分 62
数据求学家
这个作者很懒,什么都没留下…
展开
-
SparkSQL项目实战练习——各区域热门商品TOP3
目录一、环境要求二、数据准备三、需求说明四、代码实现一、环境要求IDEA中SPARK可以连接虚拟机外置HIVE可参考(IDEA中Spark连接外置hive详细步骤)Spark3.0.0;Hadoop3.2.1; HIVE3.1.2二、数据准备1 张用户行为表,1 张城市表,1 张产品表用户行为表user_visit_action:主要包含用户的 4 种行为:搜索,点击,下单,支付。数据规则如下:➢ 数据文件中每行数据采用下划线分隔数据➢ 每.原创 2022-05-04 19:00:52 · 2275 阅读 · 1 评论 -
IDEA中Spark连接外置hive详细步骤
环境要求:虚拟机上hadoop集群hdfs开启 虚拟机配置hive,且hive配置metastore到mysql windows中配置hadoop环境,且IDEA中sparksql内部可运行 虚拟机防火墙关闭网上很多帖子的操作步骤过于繁琐,现总结如下:1.向pom.xml中导入maven依赖(mysql驱动、hive依赖,spark-on-hive依赖) <dependency> <groupId>mysql</g..原创 2022-05-04 10:56:26 · 5665 阅读 · 3 评论 -
SPARK 数据结构(累加器+广播变量)详解
SPARK数据结构——累加器及广播变量原创 2022-02-27 21:03:10 · 1123 阅读 · 0 评论 -
SPARK RDD分区器
RDD分区器,支持Range/Hash/自定义原创 2022-02-27 19:37:18 · 157 阅读 · 0 评论 -
SPARK RDD序列化
RDD序列化、闭包检测、和Kyro序列化框架详解原创 2022-02-24 22:41:26 · 1027 阅读 · 0 评论 -
Spark RDD算子详解
RDD转换算子及行动算子详细记录,附idea实操演练转换算子(Transformation):功能的补充和封装,将旧的RDD包装成新的RDD(flatMap,map...)行动算子(Action):触发任务的调度和作业的执行(collect)原创 2022-02-07 21:21:44 · 3792 阅读 · 3 评论