- 博客(9)
- 收藏
- 关注
原创 Spark SQL常见4种数据源详解
通用load/write方法手动指定选项Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。Spark SQL的默认数据源为Parquet格式。数据源为Parquet文件时,Spark SQL可以方便的执行所有的操作。修改配置...
2020-01-10 13:49:03
478
原创 Spark SQL数据加载和保存实例讲解
一、前置知识详解Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作,Load:可以创建DataFrame,Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。二、Spark SQL读写数据代码实战import org.apache.spark.Sp...
2020-01-10 13:30:55
277
原创 Spark SQL操作JSON字段的小技巧
前言介绍Spark SQL的JSON支持,这是我们在Databricks中开发的一个功能,可以在Spark中更容易查询和创建JSON数据。随着网络和移动应用程序的普及,JSON已经成为Web服务API以及长期存储的常用的交换格式。使用现有的工具,用户通常会使用复杂的管道来在分析系统中读取和写入JSON数据集。在Apache Spark 1.1中发布Spark SQL的JSON支持,在Apach...
2020-01-10 13:17:59
1066
原创 Spark学习笔记之Spark SQL的具体使用
Spark SQL是什么?处理结构化数据的一个spark的模块它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用2. Spark SQL的特点多语言的接口支持(java python scala)统一的数据访问完全兼容hive支持标准的连接3. 为什么学习SparkSQL?我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交...
2020-01-10 13:15:17
200
原创 剖析Spark集群技术在美团网站的实战运用
前言美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景,选择合适、高效的数据处理引擎能够大大提高数据生产的效率,进而间接或直接提升相关团队的工作效率。美团最初的数据处理以Hive SQL为主,底层计算引擎为M...
2019-12-11 17:06:59
196
原创 java-spark中各种常用算子的写法示例
Spark的算子的分类从大方向来说,Spark 算子大致可以分为以下两类:1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。2)Action 行动算子:这类算子会触发 Sp...
2019-12-11 15:09:03
266
原创 java 中Spark中将对象序列化存储到hdfs
java 中Spark中将对象序列化存储到hdfs摘要: Spark应用中经常会遇到这样一个需求: 需要将JAVA对象序列化并存储到HDFS, 尤其是利用MLlib计算出来的一些模型, 存储到hdfs以便模型可以反复利用. 下面的例子演示了Spark环境下从Hbase读取数据, 生成一个word2vec模型, 存储到hdfs.废话不多说, 直接贴代码了. spark1.4 + hbase0.9...
2019-12-11 14:44:46
391
原创 Java和scala实现 Spark RDD转换成DataFrame的两种方法小结
今天小编就为大家分享一篇Java和scala实现 Spark RDD转换成DataFrame的两种方法小结,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧一:准备数据源在项目下新建一个student.txt文件,里面的内容为:1,zhangsan,20 2,lisi,21 3,wanger,19 4,fangliu,18二:实现Java版:1.首先新建一个stu...
2019-12-11 14:41:32
308
原创 从0开始学习大数据之java spark编程入门与项目实践
文章目录1.新建maven项目 SparkApps2. 项目中新建类JavaWordCount3. 在eclipse中运行 as “java Application”4. Eclipse中打包导出为 sparkapps.jar5. 提交给spark中执行6. 执行结果,正常输出7. 在浏览器可以看到作业记录这篇文章主要介绍了从0开始学习大数据之java spark编程入门与项目实践,结合具体入门...
2019-12-11 14:31:28
260
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人