给点吃的叭-优快云博客

原创 Spark实战案例-统计区域平均等客时间

数据描述：司机A和司机B在某市每天接送乘客的区域和时间数据格式：司机上客区下客区上车时间下车时间A 漓江区天河区 2020-07-15 10:05:10 2020-07-15 10:25:02B 天河区天顺区 2020-07-15 11:43:22 2020-07-15 11:55:45A 常德区天河区 2020-07-15 11:55:55 2020-07-15 12:12:23B 天顺区天河区 2020-07-15 12:05:05 2020-07-15 12:22:33…

2021-04-22 13:37:54 364

原创 Spark-RDD原理、WordCount运行流程

1.定义： RDD为弹性分布式数据集，Spark中最基本的数据抽象。表现在代码中为一个抽象类，它代表一个弹性的，不可变，可分区，里面的元素可并行计算的集合2.基本原理之YarnCluster模式当执行Spark-submit脚本时，首先Client客户端会调用内部main方法开始执行任务，将封装好的指令发送给ResourceManager，ResourceManager收到指令后会选择一台NodeManager来启动AppMaster，并且启动Driver程序（Client模式Driver程序会

2021-03-12 21:13:16 483 1

原创切片原理

1.InputFormat当数据进入到Map时，需要用到Inputformat抽象类，抽象类中有两个抽象方法public abstract class InputFormat<K, V> { // 获取切片信息 public abstract List<InputSplit> getSplits(JobContext context ) throws IOException, Inter

2021-01-29 18:08:46 394

原创 Hadoop框架--Job提交流程--本地模式

1.job.waitForCompletion(true); /** * 主要是将任务提交到集群中去并等待完成 * boolean verbose：是否将进度打印给用户看 * return 任务成功返回true */public boolean waitForCompletion(boolean verbose ) throws IOException, InterruptedException,

2021-01-29 18:07:05 1585

空空如也

python出现问题：AttributeError: 'str' object has no attribute 'values'

2019-05-29

TA创建的收藏夹 TA关注的收藏夹

TA关注的人