- 博客(4)
- 问答 (1)
- 收藏
- 关注
原创 Spark实战案例-统计区域平均等客时间
数据描述:司机A和司机B在某市每天接送乘客的区域和时间 数据格式: 司机 上客区 下客区 上车时间 下车时间 A 漓江区 天河区 2020-07-15 10:05:10 2020-07-15 10:25:02 B 天河区 天顺区 2020-07-15 11:43:22 2020-07-15 11:55:45 A 常德区 天河区 2020-07-15 11:55:55 2020-07-15 12:12:23 B 天顺区 天河区 2020-07-15 12:05:05 2020-07-15 12:22:33 …
2021-04-22 13:37:54
328
原创 Spark-RDD原理、WordCount运行流程
1.定义: RDD为弹性分布式数据集,Spark中最基本的数据抽象。表现在代码中为一个抽象类,它代表一个弹性的,不可变,可分区,里面的元素可并行计算的集合 2.基本原理之YarnCluster模式 当执行Spark-submit脚本时,首先Client客户端会调用内部main方法开始执行任务,将封装好的指令发送给ResourceManager,ResourceManager收到指令后会选择一台NodeManager来启动AppMaster,并且启动Driver程序(Client模式Driver程序会
2021-03-12 21:13:16
431
1
原创 切片原理
1.InputFormat 当数据进入到Map时,需要用到Inputformat抽象类,抽象类中有两个抽象方法 public abstract class InputFormat<K, V> { // 获取切片信息 public abstract List<InputSplit> getSplits(JobContext context ) throws IOException, Inter
2021-01-29 18:08:46
362
原创 Hadoop框架--Job提交流程--本地模式
1.job.waitForCompletion(true); /** * 主要是将任务提交到集群中去并等待完成 * boolean verbose:是否将进度打印给用户看 * return 任务成功返回true */ public boolean waitForCompletion(boolean verbose ) throws IOException, InterruptedException,
2021-01-29 18:07:05
1515
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人