
spark
文章平均质量分 62
坚持,再坚持一下
一起努力!
展开
-
安装spark集群
1.下载spark1.1进入Apache spark 下载页面 https://archive.apache.org/dist/spark/选择需要的版本号以2.2.0为例,由于已经安装过hadoop、所以我们下载hadoop-2.6版本的spark1.2需要安装的环境JDK 1.8.0hadoop 2.6.0scala 2.11.0spark 2.2.0注意:从2.0版开始...原创 2018-12-19 14:05:45 · 186 阅读 · 0 评论 -
Struct streaming +kafka 时间窗操作
import java.sql.Timestampimport org.apache.spark.sql.streaming.OutputModeimport org.apache.spark.sql.{DataFrame, Dataset, SparkSession}object StructStreamingWindows { def main(args: Array[String...原创 2019-06-24 09:59:41 · 1107 阅读 · 3 评论 -
运行struct streaming报错
运行struct streaming报错Exception in thread "main" org.apache.spark.sql.AnalysisException: cannot resolve 'timewindow(timestamp, 10000000, 5000000, 0)' due to data type mismatch: argument 1 requires time...原创 2019-06-24 10:02:20 · 525 阅读 · 0 评论 -
Struct Streaming的流-流连接
流 - 流连接的案例:广告货币化想象一下,您有两个流 - 一个广告展示流(即,向用户显示广告时)和另一个广告点击流(即,当用户点击显示的广告时)。要通过广告获利,您必须匹配导致点击的广告展示。换句话说,您需要根据公共密钥加入这些流,公共密钥是两个流的事件中存在的每个广告的唯一标识符。在高级别,问题如下所示。虽然这在概念上是一个简单的想法,但仍有一些核心技术挑战需要克服。使用缓冲处理延迟/延...转载 2019-06-27 16:30:35 · 1231 阅读 · 0 评论 -
struct streaming自定义MysqlSink组件
1.项目所用jar包<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql-kafka-0-10_2.11</artifactId> <version>${spark.version}</versi...原创 2019-06-27 16:39:17 · 445 阅读 · 0 评论