- 博客(19)
- 收藏
- 关注
原创 Spark SQL 之 Aggregation
Spark SQL 之 聚合函数 (Aggregation)案例来自于世界杯足球赛相关数据下载文件 https://www.kaggle.com/abecklas/fifa-world-cup#WorldCups.csv数据样式创建 WorldCUP 的case classcase class WorldCup(year:String, ...
2019-03-04 14:06:20
544
原创 Spark SQL 之 Temporary View
Spark SQL 之 Temporary Viewspark SQL的 temporary view 是支持原生SQL 的方式之一spark SQL的 DataFrame 和 DataSet 均可以通过注册 temporary view 的方式来形成视图案例一: 通过 DataFrame 的方式创建val spark = SparkSession.builder().config(con...
2019-02-16 09:50:50
3708
原创 Spark 之 Datasets 创建方式
创建Datasets 的三种方式由DataFrame 转化成为 Dataset通过 SparkSession.createDataset() 直接创建通过toDS 方法意识转换案例一: 由DataFrame 转化成为 Dataset val spark = SparkSession.builder().config(conf).getOrCreate(); impo...
2019-02-13 17:23:03
1791
转载 Spark: DataFrame vs DataSet
DataFrame vs DataSet1. ObjectiveRecently, there are two new data abstractions released dataframe and datasets in apache spark. Now, it might be difficult to understand the relevance of each one. Al...
2019-02-11 16:38:02
323
原创 SparkSQL之处理结构化数据
SPARKSQL 处理结构化数据同样SPARKSQL 处理机构化数据也存在2个大的API:transformation 和actionTransformation API 列表Operationdescselect对应传统SQL的select 语句selectExprselect 语句中添加表达式filter where过滤条件distinct d...
2019-01-31 13:28:40
1053
原创 如何将Spark 源码导入IDEA中
下载spark 源码https://github.com/apache/spark/在branch 中选择 相应的版本,这里我选择2.4版本待下载完成后,解压文件在IDEA中 选择导入项目选择解压源码路径...
2019-01-24 21:15:52
1117
原创 Spark SQL 之 DataFrame 创建的几种方式
SparkSQL 组件在Spark 体系中架构图DataFrameDataframe 的概念有点像传统数据库中的表,每一条记录都代表了一个 Row Object.与RDD的API 类似,DataFrame 的API 可以分为2种: transformations and actions.Dataframe 可以从 Hive 或者其他的 database 中读取创建。如何创建 DataF...
2019-01-22 13:53:15
927
原创 Spark RDD 之 pair (k.v) 操作
这篇文章是关于spark RDD Key/Value Pair 的操作1. 创建 k/v pair 的RDDval sc = new SparkContext(conf);val strArray = List("this is spark","It is fun!","spark is cool");val strRDD = sc.parallelize(strArray);va
2019-01-14 16:23:39
673
原创 Cassandra 之多数据中心集群搭建
1. 集群架构如下:准备5台RHL 7.2 的VM servers模拟4台在数据中心TJPDC,一台在数据中心WHDRC此次安装的cassandra 版本是 apache-cassandra-2.2.7数据中心机器列表TJPDC192.168.1.180,192.168.1.181,192.168.1.182,192.168.1.183WHDRC192.1...
2018-12-22 22:16:41
1344
原创 Spark 2.4 之 standalone 集群搭建
本文参考官方文档: http://spark.apache.org/docs/latest/spark-standalone.html1.预先搭建3台hadoop 的集群SERVER INFOversion192.168.1.10RHL6.8 & Hadoop 2.7.3192.168.1.11RHL6.8 & Hadoop 2.7.319...
2018-12-21 23:10:51
555
原创 Cassandra 之Memtable,SSTable
Memtable 是cassandra 写入磁盘之前进入的内存结构区域对于一个写请求来说满足如下2个条件,才会向客户端返回成功成功写入commit_log 中成功写入内存的memtable 中Memtable 满足如下条件,才会从内存中向磁盘sstable 中写数据commit_log 空间到达阈值 commitlog_total_space_in_mb内存空间到达阈值 me...
2018-12-19 15:24:04
1507
原创 Cassandra 之 commit_log
本文介绍了cassandra 之commit_log1. Cassandra 写入数据流程如下a) 写入commit_log 中b) 写入内存的memtable 中c) 最后从内存的memtable中flush 到磁盘的SStables中注意 a) 和 b) 是并行执行的commit_log 的作用类似于oracle的redo log 和 mongo 的 jouney log. ...
2018-12-19 12:59:11
1486
原创 IDEA 中开发第一个Spark 程序
1. 创建一个Maven 项目2. 添加SCALA依赖库修改POM.xml 文件加入 hadoop-client 和spark-core_2.11 的库依赖 <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-hdfs --> <dependency> <gr...
2018-12-16 17:29:07
909
原创 Spark 2.4 入门之基于Hadoop 2.7.3环境搭建
准备环境3 台 Linux VM Server RHL6.8 * 3Hadoop 2.7.3 集群环境搭建下载Spark 2.4 版本网址: https://spark.apache.org/downloads.html镜像地址 http://mirror.bit.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.t...
2018-12-12 23:11:42
1890
原创 PostgreSQL 10 安装
1. 官网下载软件地址链接: https://www.postgresql.org/ftp/source/v10.0/postgreSQL 的 版本是 10 操作系统是 Red Hat Enterprise Linux Server release 7.2 (Maipo)[root@tjtestrac1 postgreSQL]# wget https://ftp.postgresql....
2018-12-11 10:39:32
2773
1
原创 Kafka 入门教程之三 生产者配置以及发送信息的方式
这篇文章是关于Kafka 生产者配置以及消息的发送方式进行代码级别的案例分享kafka 提供了3种发送信息的方式Fire-and-forget这种方式是不管发送成功与否,客户端都会返回成功。尽管大多数的时候Kafka 在发送失败后,会自己重新自动再一次发送消息,但是也会存在丢失消息的风险Synchronous send这种方式是同步发送的方式,会等待future 对象的返回来判断...
2018-12-03 17:45:53
1226
原创 Kafka 入门教程之二: Java连接Kafka之生产者
1. 检查service配置文件修改参数 listeners = PLAINTEXT://your.host.name:9092注意防火墙对端口的屏蔽[kafka@tjtestrac1 config]$ cd $KAFKA_HOME/config [kafka@tjtestrac1 config]$ vi server.properties########################...
2018-11-30 14:42:00
1089
原创 Kafka 入门教程之一: 安装
Kafka 入门教程之一: 安装1. 官网下载软件http://kafka.apache.org/2. 安装单节点kafkaa) 创建用户kafka[root@tjtestrac1 ~]# useradd kafka [root@tjtestrac1 ~]# passwd kafkaChanging password for user kafka.New password: B...
2018-11-27 15:21:38
1002
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人