
Spark
我係外星人
我真的很懒,什么都没有留下啊~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RDD的partition通俗易懂的介绍
RDD是什么?弹性分布式数据集。 弹性:并不是指他可以动态扩展,而是血统容错机制。 分布式:顾名思义,RDD会在多个节点上存储,就和hdfs的分布式道理是一样的。hdfs文件被切分为多个block存储在各个节点上,而RDD是被切分为多个partition。不同的partition可能在不同的节点上。在spark读取hdfs的场景下,spark把hdfs的block读到内存就会抽象为spark的pa...转载 2019-05-16 08:14:33 · 1191 阅读 · 0 评论 -
spark初步理解和认识
了解spark前应学习hadoop体系和scala语言 1. 概念 Spark是一种快速、通用、可扩展的大数据分析引擎 spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目 **2.**Spark特点 2.1****快 与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬...原创 2019-05-23 10:27:30 · 332 阅读 · 0 评论 -
spark core试题
(第八题后续补上) spark任务程序,将任务提交集群运行。(参数指定)(10) spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode client \ ./examples/jars/spark-examples_2.11-2.1.1.jar \ 100 ...原创 2019-05-23 10:59:55 · 829 阅读 · 0 评论 -
RDD转换成DataFrame的两种方式(分别用Java和scala实现)
一:准备数据源 在项目下新建一个student.txt文件,里面的内容为: 1,zhangsan,20 2,lisi,21 3,wanger,19 4,fangliu,18 二:实现 Java版: 1.首先新建一个student的Bean对象,实现序列化和toString()方法,具体代码如下: import java.io.Serializable; public cla...转载 2019-05-23 11:56:09 · 333 阅读 · 0 评论 -
streaing-kafka
Kafka-消费模型 High Level Consumer API 不需要自己管理offset 默认实现最少一次消息传递语义(At least once) comsumer数量 大于 partiton数量, 浪费。 comsumer数量 小于 partiton数量, 一个comsumer对应多个partiton 最好partiton数目是consumer数目的整数倍 Low Level Cons...原创 2019-05-28 19:37:33 · 309 阅读 · 0 评论