
Spark
Spark修行.
.JWY.
当你的才华还撑不起你的野心时,你就应该静下心来学习。
展开
-
SparkSQL读写Hive整合
修改hive-site.xml <property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</value> <description>location of default database for the warehouse</description> </property>原创 2020-12-17 16:11:50 · 456 阅读 · 0 评论 -
SparkSQL扩展读写
Reader @Test def reader(): Unit ={ val spark = SparkSession.builder() .appName("reader_test") .master("local[*]") .getOrCreate() val reader: DataFrameReader = spark.read reader .format("csv") .option("hea原创 2020-12-16 14:57:15 · 202 阅读 · 0 评论 -
Spark Dataset & DataFrame
DatasetDataset是什么1 . Dataset是结构化数据2 . Dataset能够使用类似SQL这样声明式结构化查询语句的形式来查询3 . Dataset是一个强类型,并且类型安全的数据容器,并且提供了结构化查询API和类似RDD一样的命令式APIDataFrameDataFrame是什么1 . DataFrame类似一张关系型数据库2 . 在DataFrame上操作,非常类似SQL语句3 . DataFrame中有行和列,以及ScheamDataFrame如何创建原创 2020-12-12 17:42:38 · 189 阅读 · 0 评论 -
Spark原理-物理执行图
物理图的意义谁来计算RDD呢TaskTask如何设计1 . 第一个想法,每个RDD 的每个分区都对应一个Task2 . 第二个想法,用一个Task计算所有RDD 中对应的分区3 . 这两个想法都有问题,分阶段,采用数据流动的模型来进行设计阶段怎么划分阶段 + Task 就是执行RDD 的执行者总结数据是如何流动的数据计算发生在需要数据的地方,FinalRDD第一个获取数据的 RDD 是 firstRDD小案例val firstRdd = sc.parall原创 2020-12-10 09:43:30 · 260 阅读 · 0 评论 -
Spark原理-逻辑执行图
原创 2020-12-08 20:46:09 · 216 阅读 · 0 评论 -
Spark原理-集群环境
原创 2020-12-07 11:29:33 · 91 阅读 · 0 评论 -
Checkpoint的作用
原创 2020-12-05 08:53:56 · 732 阅读 · 0 评论 -
RDD-缓存
/** * 统计访问次数最多的ip * None 0.244744 s * cache 0.126583 s * persist 0.132369 s * * cache 底层 调用的 是 persist * persist 默认的 缓存级别是 StorageLevel.MEMORY_ONLY */ @Test def prepare(): Unit = { val resouce: RDD[String] = sc.te..原创 2020-12-05 08:53:22 · 135 阅读 · 0 评论 -
Spark-算子-Active
reduce /** * 算出总价 * 注意点: * 1. 函数中的curr参数,并不是value,而是一整条数据 * 2. reduce 整体上的结果,只有一个 */ @Test def reduce(): Unit = { val tuple: (String, Double) = sc.parallelize(Seq(("手机", 10.0), ("手机", 15.0), ("电脑", 20.0))) .reduce((curr, agg.原创 2020-12-01 08:44:55 · 211 阅读 · 0 评论 -
Spark-算子-transerformation
Map[一对一] @Test def mapTest: Unit ={ val array: Array[Int] = sc.parallelize(Seq(1, 2, 3)).map(item => item + 1).collect() array.foreach(e => println(e)) }flatMap[一对多] @Test def flatMapTest: Unit = { val array: Array[String] = s原创 2020-11-26 10:03:13 · 122 阅读 · 0 评论 -
RDD是什么
###基本操作wordcount.txt文件hadoop lizeminlizemin hadooplzm hadoopbin/spark-shell 操作命令val rdd1 = sc.textFile("file:///export/data/wordcount.txt")val rdd2 = rdd1.flatMap(item=> item.split(" "))val rdd3 = rdd2.map(item => (item,1))val rdd4 =原创 2020-11-26 10:02:13 · 379 阅读 · 0 评论 -
spark集群
准备工作https://archive.apache.org/dist/spark/jdk-8u251-linux-x64.tar.gz (自行下载)服务器三台192.168.41.12192.168.41.13192.168.41.14配置服务器之间的 hostname,ssh 免密登录hostname 在 /etc/hostname 文件中,使用vim /etc/hostname即可服务器别名配置在 /etc/hosts文件中,使用vim /etc/hosts即可现在检查原创 2020-11-26 10:01:42 · 161 阅读 · 0 评论