
Spark专题
文章平均质量分 55
学习资料+项目经验
随缘清风殇
知其然,知其所以然
展开
-
YARN-Cluster和YARN-Client的区别
(1)SparkContext初始化不同,这也导致了Driver所在位置的不同,YarnCluster的Driver是在集群的某一台NM上,但是Yarn-Client就是在client机器上;(2)而Driver会和Executors进行通信,这也导致了Yarn_cluster在提交App之后可以关闭Client,而Yarn-Client不可以;(3)应用场景,Yarn-Cluster适合生产环境,Yarn-Client适合交互和调试。(4)日志获取:Yarn-Clien只能通过Application原创 2021-08-18 15:09:37 · 942 阅读 · 0 评论 -
Spark异常之Exception in connection
报错日志21/08/09 11:24:52 WARN server.TransportChannelHandler: Exception in connection from xxxx/172.19.167.56:65256java.io.IOException: Connection reset by peer21/08/09 11:24:52 WARN cluster.YarnSchedulerBackend$YarnSchedulerEndpoint: Container marked as.原创 2021-08-09 15:05:42 · 2852 阅读 · 0 评论 -
SparkSQL在表连接时使用多字段进行连接
1、将连接字段组合成为数组uuid_list = "guid,date".split(",")2、进行表连接 forth_1_df = aaa.join(bbb, uuid_list, how="left_outer").join(forth34Df, uuid_list, how="left_outer").join( forth56Df, uuid_list, how="left_outer").join(ccc, uuid_list, how="left_outer").jo原创 2021-08-05 16:30:54 · 861 阅读 · 0 评论 -
SparkSQL相关
1、SparkSQL基础理论1.1、RDD、DataFrame、Dataset区别(1)RDD弹性分布式数据集,Spark中最基础的数据抽象,特点是RDD只包含数据本身,没有数据结构。样例(2)DataFrame1、分布式数据集,可以理解为一张分布式表或视图2、包含Schema信息(数据的结构信息,列名,列数据类型)3、丰富的sql算子4、弱类型,不支持编译期检查样例(3)DataSet1、可以像DataFrame一样调用sql算子2、强类型,可支持编译期检查原创 2021-08-04 14:06:03 · 204 阅读 · 0 评论 -
Spark调优相关
1、性能优化1.1、出库任务(1)出库任务:建议使用spark.default.parallelism参数设置partition的个数,repartition要消耗代价(2)出库任务:是IO密集型而不是计算密集型,4cores * 2executors效果可能不如1core * 8excutors1.2、持久化数据对于需要可持久化数据调用cache出库ES之前需要确认rdd.count,避免空数据,count之前就需要cache一下,因为后续还会用到,不cache的话count之前的步骤就原创 2021-08-02 12:09:50 · 836 阅读 · 0 评论 -
SparkCore相关
Spark专题1、Spark理论基础1.1、Spark基本概念1.1.1、Application(1)一个Application中可以有一到多个Job(2)一个Application中可以出发多次Action,查发一次Action形成一个DAG,一个DAG对应一个Job注意:应用程序的入口为用户所定义的main方法1.1.2、Job(1)触发一次Action形成一个完整的DAG,一个DAG对应一个Job(2)一个job有多个stage,一个stage有多个Task1.1.3、DAG原创 2021-08-02 10:02:32 · 440 阅读 · 0 评论