
Spark
文章平均质量分 89
weiiL
这个作者很懒,什么都没留下…
展开
-
Spark 2.3.0操作MySQL
代码读取MySQL数据表转化为DataFrame包含三种方法:前两种方法通过spark.read()返回一个DataFrameReader,然后format("jdbc"),设定读取格式为jdbc,配置连接信息,最后通过load()加载DataFrame。两种不同方法不同在于配置信息的方式不同。后一种方法也通过spark.read()返回一个DataFrameReader,但直接通过jdbc()来...原创 2018-04-26 14:37:00 · 5632 阅读 · 2 评论 -
【SparkStreaming】Windows 10环境下 Kafka+SparkStreaming运行实例
运行环境 1.环境部署 1. 安装zookeepr 2.安装Kafka 2.Scala API 测试Producer和Consumer 1.Maven依赖 3.SparkStreaming实例 1. Maven依赖 2.代码 运行环境 os:Windows 10 zookeeper:zookeeper-3.4.6 kafka:kafka_2.11-1.1.0 sca...原创 2018-06-14 10:06:15 · 1493 阅读 · 1 评论 -
SparkSQL操纵Hive(一):系统准备
安装Ubuntu 16.04 LTS虚拟机 详细安装过程见《VMware 12 安装Ubuntu 16.04 (图文教程)》。此处是手动安装Ubuntu,而没有采用Vmware的简易安装方法。采样简易安装时,发现启动ssh时会失败,检查日志发现出现如下错误。 Upstart: Failed to connect to socket /com/ubuntu/upstart Failed to st...原创 2018-11-28 15:29:47 · 291 阅读 · 0 评论 -
SparkSQL操纵Hive(二):环境部署
为了尝试SparkSQL操纵Hive,首先要进行一些环境上的部署。 基本配置 相关版本如下所示: 系统:Ubuntu 16.04.5 jdk: 1.8 scala: 2.11.8 spark: spark-2.2.0-bin-hadoop2.7 hadoop: hadoop-2.7.3 hive: apache-hive-2.2.0-bin spark和hadoop按普通的安装方式即可。 安装hi...原创 2018-11-28 15:30:03 · 544 阅读 · 0 评论