
spark
雾幻
种一棵树最好的时间是十年前,而后是现在
展开
-
spark运行机制
Client模式提交——Driver进程运行在客户端执行流程:用户启动客户端,之后客户端运行用户程序,启动Driver进程。在Driver中启动或实例化DAGScheduler等组件。 客户端的Driver向Master注册。Worker向Master注册,Master命令Worker启动Exeuctor。Worker通过创建ExecutorRunner线程,在ExecutorRunner线程...原创 2018-10-23 20:03:32 · 281 阅读 · 0 评论 -
Spark Join——Broadcast Join、Shuffle Hash Join、Sort Merge Join
1. Broadcast Join在数据库的常见模型中(比如星型模型或者雪花模型),表一般分为两种:事实表和维度表。维度表一般指固定的、变动较少的表,例如联系人、物品种类等,一般数据有限。而事实表一般记录流水,比如销售清单等,通常随着时间的增长不断膨胀。因为Join操作是对两个表中key值相同的记录进行连接,在SparkSQL中,对两个表做Join最直接的方式是先根据key分区,再在每个分区中...原创 2018-10-23 20:06:50 · 4831 阅读 · 1 评论 -
Spark读写MySQL、Oracle、PostgreSQL、Greenplum
添加pom依赖<!-- https://mvnrepository.com/artifact/com.pivotal/greenplum-jdbc --><dependency> <groupId>com.pivotal</groupId> <artifactId>green原创 2018-10-24 09:13:01 · 4148 阅读 · 0 评论 -
Spark通过JDBC加载部分数据、添加过滤条件
当我们需要使用SparkSQL通过JDBC方式连接MySQL、Oracle、Greenplum等来实现对数据的操作时,可能在某些情况下并不需要加载全量的数据表。例如:只需要其中的部分字段按照条件进行筛选后的数据此时就需要在JDBC连接时对option(“dbtable”, tablename)属性值进行修改,参看spark官网给出的属性介绍:(spark2.3 jdbc-to-other...原创 2018-10-25 09:22:31 · 3910 阅读 · 0 评论 -
SparkStreaming读写kerberos Kafka(Yarn Client、Yarn Cluster)
1原创 2019-05-15 13:51:26 · 2329 阅读 · 1 评论 -
SparkStreaming读写kerberos HDFS(Yarn Cluster)
yarn Cluster模式也可适用于从集群外部提交(接口机)提交命令spark-submit的最后一行为args参数,经多次尝试发现yarn cluster模式通过该方式传入kerberos文件可行krb5.conf需要在yarn集群所有节点相同位置放置client.keytab需要在命令提交节点,yarn集群所有节点相同位置放置,container连接HDFS[kerber...原创 2019-05-15 14:14:17 · 2023 阅读 · 0 评论 -
SparkStreaming读写kerberos HBase(Yarn Cluster)
yarn Cluster模式也可适用于从集群外部提交(接口机)提交命令spark-submit的最后一行为args参数,经多次尝试发现yarn cluster模式通过该方式传入kerberos文件可行krb5.conf需要在yarn集群所有节点相同位置放置client.keytab需要在命令提交节点,yarn集群所有节点相同位置放置,container连接HDFS[kerber...原创 2019-05-15 14:26:54 · 1584 阅读 · 2 评论 -
SparkStreaming读写kerberos Hive(Yarn Cluster)
yarn Cluster模式也可适用于从集群外部提交(接口机)提交命令spark-submit的最后一行为args参数,经多次尝试发现yarn cluster模式通过该方式传入kerberos文件可行krb5.conf需要在yarn集群所有节点相同位置放置client.keytab需要在命令提交节点,yarn集群所有节点相同位置放置,container连接HDFS[kerber...原创 2019-05-15 14:33:02 · 3164 阅读 · 0 评论