
Spark
Vics异地我就
这个作者很懒,什么都没留下…
展开
-
RDD 概念
什么是RDDRDD:弹性分布式数据集,抽象类abstract class第一、官方定义是一个集合,不可变的、分区的、并行计算的分布式集合Represents an immutable, partitioned collection of elements that can be operated on in parallel.第二、每个RDD内在5个特性分区partitions(A list of partitions)函数function(A funcation for computing原创 2021-07-24 21:32:24 · 157 阅读 · 0 评论 -
hadoop数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分配到各个reduce中,就是解决数据倾斜的根本所在。规避错误来更好的运行比解决错误更高效。在查看了一些资料后,原创 2021-07-18 12:00:25 · 165 阅读 · 0 评论 -
RDD的三种创建方式
由一个已经存在的Scala集合创建。val seq: immutable.Seq[Int] = 1.to(10)val rdd1: RDD[Int] = sc.parallelize(seq)由外部存储系统的文件创建。包括本地的文件系统,还有所有Hadoop支持的数据集,比如HDFS、Cassandra、HBase等。//读取外部文件系统val rdd2: RDD[String] = sc.textFile("datas/wordcount")已有的RDD经过算子转换生成新的RDD//调原创 2021-07-14 20:45:10 · 578 阅读 · 3 评论 -
Spark 写入Mysql
result.foreachPartition( it => { var url = "jdbc:mysql://地址/库名?characterEncoding=utf8" val conn = DriverManager.getConnection(url, "user", "password") val pstat = conn.prepareStatement("INSERT IGNORE INTO `表名 (`geo_hash`, `month_sale`, `ma原创 2021-07-14 11:22:47 · 178 阅读 · 0 评论