
Spark
贫僧洗头爱飘柔
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Apache Spark 2.2.0 官方文档中文版
[置顶] Apache Spark 2.2.0 ...转载 2018-04-17 13:48:26 · 386 阅读 · 0 评论 -
Spark环境搭建与IDEA的使用
Hive源码包下载 mirror.bit.edu.cn/apache/spark/ 集群环境 Master 172.16.11.97 Slave1 172.16.11.98 Slave2 172.16.11.99 下载软件包 #Master wget http://mirror.bit.edu.cn/apache/spark/spark-1.6.3/spark-1.6.3-bin-h...原创 2018-04-25 10:21:53 · 1368 阅读 · 0 评论 -
Spark基础
spark概述1.1 什么是Spark(官网:http://spark.apache.org)Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Stre...原创 2018-03-26 23:19:16 · 691 阅读 · 0 评论 -
Spark性能调优
参考文章:点击打开链接Spark作业运行原理Spark中Task,Partition,RDD、节点数、Executor数、core数目的关系Spark资源参数调优• Executor的内存分为3块• 第一块:让task执行代码时,默认占executor总内存的20%• 第二块:task通过shuffle过程拉取上一个stage的task的输出后,进行聚合等操作时使用,默认也是占20%• 第三块:让...原创 2018-04-25 10:25:56 · 532 阅读 · 0 评论 -
Spark Streaming基础与实践
(一)Spark Streaming简介参考文章:点击打开链接1、Spark Streaming概念Spark Streaming是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。类似于ApacheStorm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例...原创 2018-03-31 10:32:23 · 2154 阅读 · 0 评论 -
大数据面试、笔试题收集
给定a、b两个文件,各存放50亿个url,每个url各占用64字节,内存限制是4G,如何找出a、b文件共同的url?题目描述:给定a、b两个文件,各存放50亿个url,每个url各占用64字节,内存限制是4G,如何找出a、b文件共同的url? 分析:我们先来看如果要把这些URL全部加载到内存中,需要多大的空间。1MB = 2^20 = 10^6 = 100W1GB = 2^30 = 10^9 =...原创 2018-05-14 22:29:41 · 1005 阅读 · 0 评论 -
spark streamming + kafka + Redis 实践
java操作Redis:http://blog.youkuaiyun.com/xyang81/article/details/51918129 数据order.txt A 202.106.196.115 手机 iPhone8 8000 B 202.106.0.20 服装 布莱奥尼西服 199 C 202.102.152.3 家具 婴儿床 2000 D 202.96.96.68 家电 电饭锅 1000 F...原创 2018-07-18 20:48:59 · 1331 阅读 · 0 评论