
bigdata
文章平均质量分 80
terrorblade1235
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark livy
spark livy标签(空格分隔): bigdata spark livylivy是cloudera开发的通过REST来连接。管理spark的解决方案,此文记录在使用livy中遇到的一些问题。livy的安装livy安装不多赘述,可以从github上自己build,也可以直接从livy.io上直接下载tar包。下载livy,解压后,在livy-env中添加export SPARK_HOME=/原创 2017-08-04 15:05:18 · 2333 阅读 · 0 评论 -
Hive/impala的kerberos和sentry相关问题
self application通过kerbeos认证的四种方式Simple Hadoop Client这种方法不包含任何的认证,他依赖于当前机器已经取得TGT,这对于服务或者需要长时间运行的程序不适用,因为TGT可能会过期。每个用户在使用时都需要kinit先获取TGTService Account Authorization这种方法为Kerberos创建一个service account(服原创 2017-08-04 15:07:58 · 3125 阅读 · 1 评论 -
Spark BytesToBytesMap分析
Spark BytesToBytesMap分析标签(空格分隔): spark在Tungsten-sort base中使用了bytetobytesMap的数据结构来实现序列化的排序。BytesToBytesMap是spark使用java实现的一种数据结构,在spark-core的unsafe.map下。使用unsafe类的主要目的是直接对内存进行操作,比如分配内存,收回内存等。BytesToBy原创 2017-10-23 19:38:32 · 1382 阅读 · 0 评论 -
spark tungsten-sort shuffle
spark tungsten-sort shuffle基于内存和CPU的瓶颈,Spark引入tungsten来改善性能。其中在shuffle中,引入了tungsten-sort shuflle。tungsten-sort shuffle是基于java的Unsafe包实现的,相关的三个ShuffleWriter如下: writer desc ByPassMergeSortShuffleWr原创 2017-10-23 19:39:50 · 561 阅读 · 0 评论 -
SPARK编译的一些记录
SPARK编译的一些记录标签(空格分隔): spark由于发行版的spark-sql不支持一些比如‘insert overwrite directory’的特性,而在开发中确实需要使用到这些特性,之前的选择是使用livy来避开了这一特性,最近看到spark已经merge了这个特性的PR,于是尝试着编译,使用新的spark。Spark编译参考这篇文章 慕课网_Michael__PK 选择了使用原创 2017-10-23 19:42:22 · 450 阅读 · 0 评论 -
Spark动态分配资源
Spark动态分配资源标签(空格分隔): spark作业调度(Job Scheduling)OverView在一个集群中的每一个spark application(一个sparkContext的实例)维持着一系列独立的executor集合。集群管理着这些spark application之间的资源调度。在一个spark application之内,可能同时运行着多个job,spark使用公平调度翻译 2017-10-23 19:43:38 · 1885 阅读 · 0 评论