
spark
文章平均质量分 60
当当是个程序员
回归csdn,以后都在这个站更新文章
展开
-
spark sql并行读取实践
spark sql 并行查询第一种使用指定分区列的方式http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databasespartitionColumn must be a numeric, date, or timestamp column from the table in question.partitionColumn, lowerBound, upperBound These optio原创 2021-10-27 15:23:41 · 1529 阅读 · 0 评论 -
spark streaming和kafka相关应用
kafka优势kafka相比于其他消息系统能够实现有序的并行化的读取,其他的消息系统如果需要实现有序,是通过独占的形式,那样就不能并行化,每次只能有一个消费者读取数据。kafka通过topic和partition的方式实现有序的并行化,每个消费者可以独占一个partition,同时多个消费者读取同一个topic的数据,这样就实现了并行化,但是一个消费群组的消费者不能比一个topic的分区数多,这样如果继续保持有序,会导致资源竞争,降低读取并行效率。概念kafka 集群包含一个或者多个服务器,原创 2021-09-17 17:33:27 · 219 阅读 · 0 评论 -
<<高性能spark>>相关笔记
窄宽依赖转换窄依赖转换不需要与driver节点通信,窄依赖不需要数据跨分区迁移,在一个stage中执行计算,宽依赖的转换需要跨机器,数据需要跨分区迁移,尾端的计算需要等shuffle执行完成才能开始。举个例子对于尾端计算需要等shuffle完成,如sortByKey由于需要全部的数据有序,不是单个分区的有序,所以需要宽依赖转换,因为分区的数据会改变,所以排序后面的窄依赖转换计算需要等宽依赖转换完成。除了join的操作,多个RDD进行计算时,stage可以并行,stage一般是串行执行,串行计算必然是影响性原创 2021-07-15 11:31:30 · 103 阅读 · 0 评论 -
spark 读取hive table时分区数由什么决定
spark 读取hive table时分区数由什么决定这个话题比较复杂,他不是一个单一的指标的来决定。主要是取决于表存储的文件大小,hdfs的块文件大小,hive是否是分区表,如果是分区表一个hive表分区一个hadoopRDD, 最后会union成一个RDD,如果不是分区表就是一个HadoopRDD。如果hive底层存储单个文件大小超过块大小,这一个文件的读取就会被hdfs的块大小除以max(“mapreduce.job.maps”,2)来划分,如果块大于文件大小就使用文件大小除以max(“mapred原创 2021-07-15 11:26:47 · 1143 阅读 · 0 评论 -
spark on hive local模式使用元数据连接的方式查询hive
spark on hive local模式使用元数据连接的方式查询hive在idea中需要引入的包文件如下:<dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.11</artifactId><version>2.3.0</version></dependency><dependency>&l原创 2021-07-14 14:16:27 · 287 阅读 · 0 评论