
spark
文章平均质量分 76
Deltao_Taic
我想成为一个顶级程序员
展开
-
spark提交任务的基础配置解释
#!/bin/bash #队列名 根据yarn的队列提交 realtime_queue=root #提交的任务名 my_job_name="OrderQZ" spark-shell --master yarn --deploy-mode client \ --queue $realtime_queue \ #总的executors数 根据数据量与自己的集群资源来分配 --num-executors 35 \ #每个executor的核数 --executor-cores 5 \ #每个executor的内存原创 2022-02-08 15:16:44 · 1688 阅读 · 0 评论 -
spark常用rdd整理
tranformationRDD 转换 rdd: map(func) 返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成 filter(func) 返回一个新的RDD,该RDD由经过func函数计算后返回值为true的输入元素组成 flatMap(func) 类似于map,但是每一个输入元素可以被映射为0或多个输出元素(所以func应该返回一个序列,而不是单一元素) mapPartitions(func) 类似于map,但独立地在RDD的每一个分片上运行,因此在类型为T...原创 2020-06-21 18:27:12 · 279 阅读 · 0 评论 -
spark程序设置日志输出级别
sc.setLogLevel("ERROR")原创 2020-06-21 18:21:05 · 554 阅读 · 0 评论 -
Spark之中map与flatMap的区别
Spark之中map与flatMap的区别 一直不太明白spark之中map与flatMap之间的区别。map的作用很容易理解就是对rdd之中的元素进行逐一进行函数操作映射为另外一个rdd。flatMap的操作是将函数应用于rdd之中的每一个元素,将返回的迭代器的所有内容构成新的rdd。通常用来切分单词。 区别1: flatMap返回的是迭代器中的元素。 上面的例子说明对于传递给fla...转载 2018-10-08 17:39:59 · 267 阅读 · 0 评论