spark
七月流火_2567
人的一切痛苦,都是对自己无能的愤怒!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark SQL and DataFrame小记
一、Spark SQL 1.易整合 2.统一的数据访问方式 3.兼容HIve 4.标准的数据连接 二、DataFrames 定义: 与RDD类似,DataFrame也是一个分布式数据容器,然而Dataframe更像传统数据库的二维表格,除了数据意外,还记录着数据的结构信息,即schema。同时,与HIve类似,DataFrame也支持嵌套数据类型(struct、array 和map)。从API的易...原创 2018-11-16 22:28:27 · 211 阅读 · 0 评论 -
关于Dstream的转化操作的详细解释
众所周知,在SparkCore中,RDD支持Transform和Action两种类型的算子操作,同样的,作为代表了一系列连续 RDD序列的DStream,同样也有相应的操作,如下图所示: 在此,我着重讲一下Dstream的转化操作。 DStream的转化操作可以分为无状态(stateless)和有状态(stateful)两种。 无状态转化操作 无状态的转化操作,就是把简单的RDD转化操作应用到...原创 2018-11-22 20:44:12 · 6068 阅读 · 2 评论 -
Kafka小记(二)
一、Kafka分区和消费者的关系 Kafka分区继承了一个接口,实现的是PartitionAssignor,这个接口下面有两个类,RoundRobinAssignor和RangeAssignor两种算法实现 第一种轮循方法更优 二、文件的存储机制 存储机制图 三、文件的传输机制 传输机制图 四、Spark Streaming简介 DStream 是一个数据抽象 在内部,一个DStream是...原创 2018-11-16 22:11:03 · 153 阅读 · 0 评论
分享