spark
文章平均质量分 95
CoderBoom
on the way
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据实时阶段----【Spark03之dataFrame、dataSet、schema】
spark_入门03学习笔记 1、目标 1、掌握sparksql底层原理 2、掌握DataFrame和DataSet数据结构和使用方式 3、掌握通过sparksql来进行代码开发 2、sparksql概述 2.1 sparksql前世今生 shark它是专门为spark设计的大规模数据仓库系统 shark依赖于hive的代码,同时也依赖spark版本 后期发现hive的mapre...原创 2018-12-04 17:46:24 · 1451 阅读 · 0 评论 -
大数据实时阶段----【Spark02之ip地址查询、topN、PV、UV实战】
spark02_学习笔记 1、目标 1、掌握RDD的底层原理 2、掌握RDD的常用的算子操作 3、掌握RDD的宽窄依赖 4、掌握RDD的缓存机制 5、掌握划分stage 6、掌握spark任务运行架构和调度流程 2、RDD概述 2.1 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区...原创 2018-12-03 21:39:53 · 1262 阅读 · 0 评论 -
kafka_Manager监控工具的安装与作用
kafka Manager监控工具的安装与使用 第一步:上传kafkaManager的压缩包 将我们kafkaManager的压缩包上传到我们kafka集群的任意一台机器即可 第二步:修改kafkaManager的配置文件 vim application.conf 更改一配置文件 kafka-manager.zkhosts,修改为我们的zookeeper的地址即可 kafka-manager....原创 2018-12-05 23:09:02 · 1366 阅读 · 0 评论 -
kafka的文件存储机制
kafka的文件存储机制 1、概述 同一个topic下有多个不同的partition,每个partition为一个目录,partition命名的规则是topic的名称加上一个序号,序号从0开始。 每一个partition目录下的文件被平均切割成大小相等(默认一个文件是1G,可以手动去设置)的数据文件,每一个数据文件都被称为一个段(segment file),但每个段消息数量不一定相等,这种...原创 2018-12-05 23:02:42 · 1371 阅读 · 0 评论 -
kafka为什么那么快
Kafka为什么那么快 Broker 不同于Redis和MemcacheQ等内存消息队列,Kafka的设计是把所有的Message都要写入速度低容量大的硬盘,以此来换取更强的存储能力。实际上,Kafka使用硬盘并没有带来过多的性能损失,“规规矩矩”的抄了一条“近道”。 首先,说“规规矩矩”是因为Kafka在磁盘上只做Sequence I/O,由于消息系统读写的特殊性,这并不存在什么问题。关...原创 2018-12-05 22:58:22 · 384 阅读 · 0 评论 -
大数据实时阶段----【Spark04之sparkStreaming整合flume、sparkStreaming整合kafka (★★★★★)】
typora-copy-images-to: img_spark04 typora-root-url: img_spark04 spark_入门04学习笔记 1、目标 1、掌握sparkStreaming原理和架构 2、掌握DStream常用的操作 3、掌握sparkStreaming整合flume 4、掌握sparkStreaming整合kafka (★★★★★) 2、sparkStrea...原创 2018-12-07 16:40:07 · 689 阅读 · 0 评论 -
大数据实时阶段----【Spark01】
spark_01学习笔记 1、目标 1、掌握spark相关概念 2、掌握搭建一个spark集群 3、掌握编写简单的spark应用程序 2、spark概述 2.1 什么是spark Apache Spark™ is a unified analytics engine for large-scale data processing. apache的spark是一个针对于大规模...原创 2018-12-01 16:50:32 · 675 阅读 · 0 评论 -
Spark----【spark on yarn】
Spark on Yarn 1. 官方文档 http://spark.apache.org/docs/latest/running-on-yarn.html 2. 配置安装 1.安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上。 2.安装Spark:解压Spark安装程序到一台服务器上,修改spark-env.sh配置文件,spa...原创 2018-12-04 23:15:40 · 317 阅读 · 0 评论 -
sparkRDD函数详解
1. RDD操作详解 启动spark-shell spark-shell --master spark://node-1:7077 1.1 基本转换 1) map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。 任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。 举例: scala> val a = sc.parallelize(1 to 9, 3) ...原创 2018-12-02 22:56:17 · 928 阅读 · 0 评论 -
kafka入门
kafka入门学习笔记 1、目标 1、掌握kafka相关概念 2、掌握搭建一个kafka集群 3、掌握kafka生产者和消费者代码开发 4、掌握kafka的分区策略 5、掌握kafka整合flume 6、掌握kafka如何保证消息不丢失 2、kafka概述 2.1 kafka是什么 kafka是由linkedin开源,捐献apache基金会,它是一个实时的分布式消息队列。 它提供了一个对于实时...原创 2018-12-06 22:48:13 · 798 阅读 · 0 评论
分享