
spark
文章平均质量分 94
Null is Null
这个作者很懒,什么都没留下…
展开
-
spark算子
文章目录Key-Value类型reduceByKey()按照K聚合VgroupByKey()按照K重新分组combineByKey()aggregateByKey()按照K处理分区内和分区间逻辑foldByKey()分区内和分区间相同的aggregateByKey()sortByKey()按照K进行排序mapValues()只对V进行操作join()连接cogroup()类似全连接,但是在同一个RDD中对key聚合 Key-Value类型 reduceByKey()按照K聚合V 1)函数签名: def re原创 2021-04-09 20:26:33 · 351 阅读 · 0 评论 -
spark与flink任务的提交
文章目录spark1.1 Spark运行模式1.2 spark任务提交的时候参数(yarn-client/yarn-cluster)1.3 运行时候的架构1.4 任务的提交Flink1.1 flink实时任务提交的参数(per-job模式)1.2 flink运行时候的架构1.3 任务提交流程(yarn模式) spark 1.1 Spark运行模式 1)Local:运行在一台机器上。 测试用。 2)Standalone:是Spark自身的一个调度系统。 对集群性能要求非常高时用。国内很少使用。 3)Yarn:原创 2021-04-09 12:38:06 · 612 阅读 · 0 评论 -
spark自己的总结
文章目录Spark CoreSpark运行环境Yarn模式Spark运行架构核心组件核心概念Executor与Core并行度(Parallelism)提交流程Yarn Cluster模式提交的时候参数Spark核心编程SparkSQLSparkSQL核心编程DataFrameDataSetSparkStreaming知识点SparkStreamingSparkstreaming的概念背压机制DStream入门过程解析DStream创建Kafka数据源Kafka 0-10 Direct模式DStream转换无原创 2021-04-06 18:40:23 · 738 阅读 · 0 评论