
集群
文章平均质量分 76
公众号【禅与大数据】,欢迎订阅
禅与大数据
展开
-
hadoop2.7.3分布式集群问题汇总(持续更新)
hadoop2.7.3分布式集群问题汇总(持续更新)原创 2017-06-22 16:47:25 · 425 阅读 · 0 评论 -
solr-hbase二级索引及查询解决方案(一)
最近要搞一个查询功能,是把hbase中的数据方便的查询出来.之前根据rowkey的查询方式,尽管有针对性设计过rowkey,有前缀查询,后缀查询,以及正则查询,但是实际上不够用. 参考了网络上的设计,建立二级索引是比较好的思路.于是就以solr存储hbase里面的列索引,实现了这个功能.需要的组件有: 1.hbase 2.solr 3.key-value store indexer ...原创 2018-02-28 21:41:50 · 4397 阅读 · 2 评论 -
通过jupyter远程编写代码,并远程提交到spark集群执行
几个月前折腾了一番jupyter(web 代码编辑器),感觉jupyter在编写某些科学文章是比较灵活.不过几乎是单机版的,在生产环境应用有限.之前因为需要在集群上执行编辑的代码,遂查找资料,又折腾了一番,使得jupyter可以应用于集群环境.我们的需求类似使用者可以写点简单的程序,然后在集群上面执行代码. 程序是python语言的.所以,集群是pyspark集群.在spark包下面,会有pysp...原创 2018-03-03 18:08:32 · 6169 阅读 · 1 评论 -
记《魅族大数据治理》分享讲座之本人感想分析
昨天参加了魅族大数据平台的一个技术分享活动,话题是《大数据治理之路》.魅族大数据平台工作人员分享了一些他们的大数据治理经验,很有内容,现整理一些如下. 首先,他们整理了一个治理流程,架构图(本人整理,非原版,下文图片亦是如此)如下:然后,依照架构图,大致讲了架构图中的每个模块,以及将模块串联起来的一个管理流程,流程图如下: 流程图上面,其中,“主数据管理” 模块是本人根据理解加的,...原创 2018-04-01 11:54:22 · 2876 阅读 · 0 评论 -
spark常见操作系列(3)--spark读写hbase(2)
接着上一篇, 问题(2):scan有scan.setCaching(10000)scan.setCacheBlocks(true)等设定.setCaching ,个人感觉不够用.hbase 默认是在内存里面放一块数据用来读取,所以读取效率比较高,可是,其余大部分数据还是在硬盘中,这个内存数据块的设定和意义,待清晰研究.单节点hbase的写入效率,有人粗估计,在3万-5万,这个...原创 2018-06-21 21:35:19 · 2116 阅读 · 0 评论 -
使用JMC工具对spark 程序调优(二)
待更新原创 2018-07-30 08:58:13 · 433 阅读 · 0 评论 -
使用JMC工具对spark 程序调优(三)
待更新原创 2018-07-30 08:59:09 · 465 阅读 · 0 评论 -
hadoop复习
hadoop复习原创 2018-11-14 12:33:44 · 351 阅读 · 0 评论