
Spark基础与案例
文章平均质量分 80
。。。
程研板
计算机本硕连读,热爱大数据和人工智能,希望能够为apache社区添砖加瓦。2025年起开始接做毕设的项目。
展开
-
Spark中的Join操作及问题解决
目录一.数据准备二.Spark Core中的Join三.Spark SQL中的Join一.数据准备grade.txt:(id, grade)1,751,861,642,76address.txt:(id, address)1,shanghai1,beijing二.Spark Core中的Join需要把每行转换成键值对的形式。val grade = sc.textFile("D:\\study\\ideaProject\\first_maven\\input\\grade.txt"原创 2022-04-04 14:20:53 · 3636 阅读 · 0 评论 -
一文讲透Spark中的分区和分桶的不同
目录一.数据准备二.Spark Core中的分区三.Spark SQL中的分区和分桶(用HQL)一.数据准备partition.txt:b,2c,1b,1d,3a,2b,1二.Spark Core中的分区val rdd = sc.textFile("D:\\study\\workspace\\spark-sql-train\\input\\partition.txt") .map(_.split(",")).map(x => (x(0), x(1)))rdd.saveAs原创 2022-04-03 18:48:07 · 3481 阅读 · 0 评论 -
Spark Streaming官网重点整理
目录一.Spark Streaming1.Input DStreams and Receivers2.Receiver Reliability3.Transform Operation4.UpdateStateByKey Operation5.Output Operations on DStreams6.DataFrame and SQL Operations7.Fault-tolerance Semantics二.Spark Structured Streaming一.Spark Streaming1原创 2022-03-09 21:31:15 · 670 阅读 · 0 评论 -
Spark SQL Guide——Data Sources
文章目录Parquet FilesPartition Discovery(解析分区信息)Schema Merging(模式归并)Hive metastore Parquet table conversion(Hive metastore Parquet表转换)Columnar Encryption(列式加密)Hive TablesSpecifying storage format for Hive tables(指定Hive表的存储格式)Interacting with Different Versions原创 2022-01-27 01:39:40 · 1757 阅读 · 0 评论 -
Spark学习案例——SparkSQL结合Kudu实现广告业务分析
下方有数据可免费下载目录原始数据项目架构ETL处理业务一代码重构打包定时运行原始数据下载数据: 请点击我.提取码:3bm9有两个文件,一个广告业务的data-test.json,一个ip.txt文件项目架构ETL处理data-test.json文件中每行有ip地址,需通过ip.txt文件进行解析,解析出地名,运营商等信息。但是data-test.json中的ip格式为123.23.3.11,而ip.txt中的ip格式为16777472——16778239十进制的形式,需将ip转化为十进制.原创 2020-09-04 20:17:43 · 2363 阅读 · 0 评论 -
PySpark学习案例——北京空气质量分析
下方有数据可免费下载目录原始数据环境原始数据环境作业运行环境: 系统:centos7 JDK:1.8.0_91 Python:3.6.8 azkaban:3.81.0(需要编译好的安装包可以私信我) spark:2.4.3-bin-hadoop2.6 kibana:7.7.1 elasticsearch:7.7.1开发环境: 系统:Win10 PyCharm:2020.1 Python:3.8.1...原创 2020-08-26 01:45:38 · 3837 阅读 · 0 评论 -
PySpark学习案例——词频统计并排序(本地文件)
目录数据预览python代码提交运行运行结果数据预览//有4个内容一模一样的文件[hadoop@hadoop000 wordcount]$ lshello.txt hello - 副本 (2).txt hello - 副本 (3).txt hello - 副本.txt//文件内容[hadoop@hadoop000 wordcount]$ cat hello.txthello sparkhello flinkhello hadooppython代码import sysfrom原创 2020-08-19 17:45:46 · 1287 阅读 · 0 评论 -
Spark core算子的一点小总结
scala> val inputRDD1 = sc.parallelize(Array[(Int, Char)]( | (1, 'a'), (2, 'b'), (3, 'c'), (4, 'd'), (5, 'e'), (3, 'f'), (2, 'g'), (1, 'h'), (2, 'i') | ), 3)inputRDD1: org.apache.spark.rdd.RDD[(Int, Char)] = ParallelCollectionRDD[13]原创 2021-04-29 16:29:50 · 131 阅读 · 1 评论 -
SparkSQL各种数据源相关操作
目录原创 2020-08-29 23:05:44 · 1757 阅读 · 0 评论 -
使用typesafe报错:No configuration setting found for key ‘...‘
导入的包<dependency> <groupId>com.typesafe</groupId> <artifactId>config</artifactId> <version>1.3.3</version></dependency>测试代码import com.typesafe.config.{ConfigFactory,Config}object Config原创 2020-08-28 21:45:07 · 2531 阅读 · 0 评论 -
SparkSQL中DataFrame的getAs和getString函数解析
JSON数据{"name":"Michael","age":10, "adress": "beijin"}{"name":"Andy", "age":30, "adress": "beijin"}{"name":"Justin", "age":19, "adress": "beijin"}getAs函数peopleDF.map(x => x.getAs[String]("adress")).show()//运行结果+------+| value|+------+|beijin|原创 2020-08-28 01:48:19 · 4925 阅读 · 0 评论 -
详谈Spark最重要的模块——Spark SQL
目录首先认识Spark SQL官网名词解释RDD,DataFrame,DataSet之间的相互转化静态类型与运行时类型安全RDD、DataFrame和Dataset 如何选择首先认识Spark SQL1.Spark SQL is Apache Spark’s module for working with structured data.2.There are several ways to interact with Spark SQL including SQL and the Dataset A原创 2020-08-27 21:39:23 · 667 阅读 · 0 评论