
SparkSQL
zerone-f
这个作者很懒,什么都没留下…
展开
-
SparkSQL官网Java示例ERROR CodeGenerator: failed to compile问题
Table of Contents问题代码定位问题没完呢?定位问题正确的代码总结问题代码SparkSessionJavaTest.javapackage sparkSQL.apachedemo;import org.apache.log4j.Level;import org.apache.log4j.Logger;import org.apa...原创 2019-11-15 15:08:15 · 2286 阅读 · 0 评论 -
第73课:Spark SQL Thrift Server实战
内容: 1.SparkSQL Thrift解析与测试 2.SparkSQL Thrift Server JDBC编程一、SparkSQL Thrift解析与测试 ThriftServer是一个JDBC/ODBC接口,用户可以通过JDBC/ODBC连接ThriftServer来访问SparkSQL的数据。ThriftServer在启动的时候,会启动了一个sparkSQ...原创 2018-11-11 11:11:46 · 633 阅读 · 0 评论 -
第74课:Hive on Spark大揭秘 完整版
内容: 1.Hive On Spark内幕 2.Hive on Spark实战一、Hive On Spark内幕 1.Hive on spark 是hive 的一个子项目,它是指不通过mapReduce 作为唯一的查询引擎,而是将spark 作为底层的查询引擎。hive on spark 只适用于hive 在可预见的未来,很有可能Hive默认的底层引擎就从MapR...原创 2018-11-11 19:53:09 · 669 阅读 · 0 评论 -
第75课:Spark SQL基于网站Log的综合案例实战
内容: 1.案例概述 2.数据来源和分析一、案例概述 PV:页面访问数 UV:独立访问数二、数据来源和分析package SparkSQL;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.OutputStreamWrit...原创 2018-11-11 22:02:51 · 663 阅读 · 0 评论 -
第67课:Spark SQL下采用Java和Scala实现Join的案例综合实战(巩固前面学习的Spark SQL知识)
内容: 1.SparkSQL案例分析 2.SparkSQL下采用Java和Scala实现案例一、SparkSQL下采用Java和Scala实现案例学生成绩:{"name":"Michael","score":98}{"name":"Andy", "score":95}{"name":"Justin", "原创 2018-11-08 21:59:31 · 1118 阅读 · 0 评论 -
第79课:Spark SQL基于网站Log的综合案例综合代码和实际运行测试
内容: 1.热门论坛板块排名 2.综合代码实战和测试一、热门论坛板块排版创建表: spark.sql("createtable userlogs(date string, timestamp bigint, userID bigint, pageID bigint, channel string, action string) ROW FORMAT DELIMI...原创 2018-11-18 21:56:40 · 200 阅读 · 0 评论 -
第80课:Spark SQL网站搜索综合案例实战
内容: 1.案例分析 2.案例实战一、案例分析 项目:以京东找出搜索平台排名的产品,The hottest 元数据:date,userID,item,city,device 总体思路:混合使用Spark SQL和Spark Core的内容 第一步:原始的ETL,过滤数据后产生目标数据,实际企业中可能过滤条件非常复杂(进行广播),使用...原创 2018-11-25 20:56:54 · 1580 阅读 · 0 评论 -
134.Spark大型电商项目-用户活跃度分析模块-获取指定时间范围内购买金额最多的10个用户
目录代码运行结果本篇文章记录获取指定时间范围内购买金额最多的10个用户,使用SparkSession来分析数据。代码UserActiveDegreeAnalyze.scalapackage graduation.scala.sparkimport org.apache.spark.SparkConfimport org.apache.spark.sql.Spar...原创 2019-08-07 23:20:19 · 283 阅读 · 0 评论 -
135.Spark大型电商项目-用户活跃度分析模块-统计最近一个周期相对上一个周期访问次数增长最多的10个用户
目录代码运行结果本篇文章记录获取指定时间范围内购买金额最多的10个用户,使用SparkSession来分析数据。代码UserActiveDegreeAnalyze.scalapackage graduation.scala.sparkimport org.apache.spark.SparkConfimport org.apache.spark.sql.Spar...原创 2019-08-07 23:40:54 · 491 阅读 · 0 评论 -
133.Spark大型电商项目-用户活跃度分析模块-统计指定时间内访问次数最多的10个用户
本篇文章记录统计指定时间内访问次数最多的10个用户,使用SparkSession来分析数据。代码UserActiveDegreeAnalyze.scalapackage graduation.scala.sparkimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSession/** ...原创 2019-08-05 23:39:57 · 1401 阅读 · 0 评论 -
136.Spark大型电商项目-用户活跃度分析模块-统计最近一个周期相对上一个周期消费金额增长最多的10个用户
目录代码运行结果本篇文章记录获取指定时间范围内消费金额增长最多的10个用户,使用SparkSession来分析数据。代码UserActiveDegreeAnalyze.scalapackage graduation.scala.sparkimport org.apache.spark.SparkConfimport org.apache.spark.sql.Sp...原创 2019-08-08 23:32:38 · 498 阅读 · 0 评论 -
137.Spark大型电商项目-用户活跃度分析模块-统计指定注册时间范围内头7天访问次数最高的10个用户
本篇文章记录获取统计指定注册时间范围内头7天访问次数最高的10个用户,使用SparkSession来分析数据。代码UserActiveDegreeAnalyze.scalapackage graduation.scala.sparkimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessio...原创 2019-08-08 23:38:00 · 388 阅读 · 0 评论 -
138.Spark大型电商项目-用户活跃度分析模块-统计指定注册时间范围内头7天访问消费金额最高的10个用户
目录代码运行结果本篇文章记录获取统计指定注册时间范围内头7天访问次数最高的10个用户,使用SparkSession来分析数据。代码UserActiveDegreeAnalyze.scalapackage graduation.scala.sparkimport org.apache.spark.SparkConfimport org.apache.spark.s...原创 2019-08-08 23:41:22 · 316 阅读 · 0 评论 -
139.Spark大型电商项目-用户活跃度分析模块-统计指定注册时间范围内头7天访问次数最高的10个用户
目录代码运行结果本篇文章记录获取统计指定统计指定注册时间范围内头7天访问次数最高的10个用户,使用SparkSession来分析数据。代码UserActiveDegreeAnalyze.scalapackage graduation.scala.sparkimport org.apache.spark.SparkConfimport org.apache.spa...原创 2019-08-08 23:46:52 · 244 阅读 · 0 评论 -
140.Spark大型电商项目-用户活跃度分析模块-七个模块总结
目录完整代码Spark大型电商项目-用户活跃度分析模块一共实现了五个计算功能,七个实例1.指定时间内话同次数显多的10个户2.指定时间即内购买商品全额最多的10个用户3.量近周期力相对之第一个周啊访问次数增长最识的10个用尸4.最近周期户相对之第一个用期购买商品全部增长最快的10个用户5.指定周期内的新用户在头天访问大数最多的10个用户完整代码UserAct...原创 2019-08-08 23:52:58 · 514 阅读 · 1 评论 -
第63课:Spark SQL下Parquet内幕深度解密
内容: 1.SparkSQL下的Parquet意义再思考 2.SparkSQL下的Parquet内幕解密一、SparkSQL下的Parquet意义再思考 1.如果说HDFS是大数据时代分布式文件系统存储的事实标准的话,Parquet是大数据时代的文件存储格式的事实标准; 2.速度更快:从使用SparkSQL操作普通文件CSV和Parquet文件的速度对比来看...原创 2018-11-05 16:46:05 · 313 阅读 · 0 评论 -
第66课:Spark SQL下Parquet中PushDown的实现
内容: 1.SparkSQL下的PushDown的价值 2.SparkSQL下的Parquet下的pushDown的实现一、SparkSQL下的PushDown的价值 1.假设通过DataFrame,df.select(a,b,c).filter(by a).filter(by b).select(c).filter(by c)这样的查询,在optimizer阶段,...原创 2018-11-07 22:52:32 · 381 阅读 · 0 评论 -
第65课:Spark SQL下Parquet深入进阶
内容: Spark SQl下的Parquet的序列化 SparkSQL下的Parquet源码解析 SparkSQL的Parquet总结一、Spark SQl下的Parquet的序列化 1.block:parquet层面和row group是一个意思 2.row group:逻辑概念,用于对row进行分区。由数据集中每个column的column ch...原创 2018-11-07 20:45:59 · 531 阅读 · 0 评论 -
第60课:使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作
内容: 1.作业特别说明 2.使用Java实战RDD与DataFrame转换 3.使用Scala实战RDD与DataFrame转换一、作业特别说明1.列的个数,以及每一列的具体的信息只有在运行的时候才会知道:2.生产环境时候,常用的方式:动态转化, 第一:生产环境的时候,一开始不容易确定每一条记录的不同的列的元数据信息,以及这条数据到底有多少列。 ...原创 2018-10-28 22:38:22 · 296 阅读 · 0 评论 -
第61课:Spark SQL数据加载和保存内幕深度解密实战
内容: 1.SparkSQL加载数据 2.SparkSQL保存数据 3.SparkSQL对数据处理的思考一、SparkSQL加载数据 1.SQLContext中有load方法,实际上也就是使用了DataFrameReader的load方法。目前的Spark 1.6.0中,虽然SQLContext还有load方法,但已被设置为@deprecated。也就是说在...原创 2018-10-29 23:44:50 · 208 阅读 · 0 评论 -
第56课:揭秘Spark SQL和DataFrame的本质
一、SparkSQL与DataFrame SparkSQL之所以是除了Spark Core以外最大和最受关注的组件,原因是: a)处理一切存储介质和各种格式的数据(同时可以方便的扩展SparkSQL的功能来支持更多类型的数据,例如Kudu); b)SparkSQL把数据仓库的计算能力推向了新的高度,不仅是无敌的计算速度(SparkSQL比Shark快了至少一个数量级,而Shar...原创 2018-10-26 22:14:37 · 226 阅读 · 0 评论 -
第62课:Spark SQL下的Parquet使用最佳实践和代码实战
内容 1.SparkSQL下的Parquet使用最佳实践 2.SparkSQL下的Parquet实战一、SparkSQL下的Parquet使用最佳实践 1.过去整个业界对大数据的分析的技术栈的pipeline一般分为两种方式: a)Data Source->HDFS->MR/Hive/Spark(相当于ETL)->HDFS Par...原创 2018-11-01 00:01:59 · 450 阅读 · 0 评论 -
第58课:使用Java和Scala在IDE中开发DataFrame实战
内容: 1.使用Java开发DataFrame实战 2.使用Scala开发DataFrame实战 1.可以把SparkSQl作为一个分布式查询引擎。SparkSQL一般都和Hive一起使用。2.使用Java开发Spark应用程序的原因: a) 企业生产环境下大多以Java为核心 b)Java更傻瓜,更易理解3.SQLContext中有HiveContext子类...原创 2018-10-27 19:47:58 · 303 阅读 · 0 评论 -
解决spark-shell中java.lang.UnsatisfiedLinkError: org.xerial.snappy.SnappyNative.maxCompressedLength(I)I
在运行Schema Merging示例代码的时候遇到问题以及解决:1.示例代码:// This is used to implicitly convert an RDD to a DataFrame.import spark.implicits._// Create a simple DataFrame, store into a partition directoryval s...原创 2018-11-06 11:44:04 · 2039 阅读 · 0 评论 -
在spark-shell中解决error: not found: value StructType/StructField/StringType问题
问题描述:在Spark-shell中运行官方文档提供的例子时,出现error: not found: value StructType/StructField/StringType的错误解决方法:stackoverflow上 给出的解决方法是导入相应的类型 import org.apache.spark.sql.types._导入后问题就解决了...原创 2018-11-06 16:53:04 · 3144 阅读 · 0 评论 -
第64课:Spark SQL下Parquet的数据切分和压缩内幕详解
内容: 1.SparkSQL下的Parquet数据切分 2.SparkSQL下的Parquet数据压缩一、SparkSQL下的Parquet数据切分 Table partitioning (表分区)是在像 Hive 这样的系统中使用的常见的优化方法. 在 partitioned table (分区表)中, 数据通常存储在不同的目录中, partitioning co...原创 2018-11-06 19:23:59 · 2069 阅读 · 0 评论 -
第68课:Spark SQL通过JDBC操作MySQL
内容: 1.SparkSQL操作关系数据库意义 2.SparkSQL操作关系数据库一、通过SparkSQL操作关系数据库意义 1.SparkSQL可以通过jdbc从传统关系型数据库中读写数据,读取数据后直接生成DataFrame,然后在加上借助于Spark内核的丰富的API来进行各种操作; 2.关于JDBC的驱动jar可以使用在Spark的jars目录中,也...原创 2018-11-09 10:45:55 · 5893 阅读 · 1 评论 -
第69课:Spark SQL通过Hive数据源实战
内容: 1.Spark SQL操作Hive解析 2.SparkSQL操作Hive实战一、Spark SQL操作Hive解析 1.在目前企业级大数据Spark开发的时候,绝大多数是采用Hive作为数据仓库的spark提供Hive的支持功能,Spark通过HiveContex可以操作Hive中的数据,基于HiveContext可以使用sql/hsql两种方式编写SQL语...原创 2018-11-09 16:47:55 · 889 阅读 · 0 评论 -
第70课:Spark SQL内置函数解密与实战
内容: 1.SparkSQL内置函数解析 2.SparkSQL内置函数实战一、SparkSQL内置函数解析 使用Spark SQL中的内置函数对数据进行分析,Spark SQL API不同的是,DataFrame中的内置函数操作的结果是返回一个Column对象,而DataFrame天生就是"A distributed collection of data organ...原创 2018-11-09 22:16:36 · 409 阅读 · 0 评论 -
第76课:Spark SQL实战用户日志的输入导入Hive及SQL计算PV实战
内容: 1.Hive数据导入操作 2.SparkSQL对数据操作实战一、Hive数据导入操作create table userLogs(date String,timestamp bigint,userID bigint,pageID bigint,channel String,action String);load data local inpath '/home/h...原创 2018-11-12 23:21:09 · 262 阅读 · 0 评论 -
第71课:Spark SQL窗口函数解密与实战
内容: 1.SparkSQL窗口函数解析 2.SparkSQL窗口函数实战一、SparkSQL窗口函数解析 1.spark支持两种方式使用窗口函数: 在SQL语句中的支持的函数中添加OVER语句。例如avg(revenue) OVER (…) 使用DataFrame API在支持的函数调用over()方法。例如rank().over(...原创 2018-11-10 09:55:02 · 959 阅读 · 0 评论 -
第72课:Spark SQL UDF和UDAF解密与实战
内容: 1.SparkSQL UDF 2.SparkSQL UDAF一、SparkSQL UDF和SparkSQL UDAF 1.解决SparkSQL内置函数不足问题,自定义内置函数, 2.UDF:User Define Function,用户自定义的函数,函数的输入是一个具体的数据记录,实现上讲就是简单的scala代码 3.UDAF:User De...原创 2018-11-10 13:55:16 · 486 阅读 · 0 评论 -
第59课:使用Java和Scala在IDE中实战RDD和DataFrame转换操作
内容: 1.RDD与DataFrame转换的重大意义 2.使用Java实战RDD与DataFrame转换 3.使用Scala实战RDD与dataFrame转换一. RDD与DataFrame转换的重大意义 1.在Spark中RDD可以直接转换成DataFrame。SparkCore的核心是RDD,所有的调度都是基于RDD完成的,对RDD的操作都可以转换成基...原创 2018-10-28 18:04:10 · 234 阅读 · 0 评论