
大数据其他暂时未分类
步步为赢567
毕业于华中科技大学,硕士研究生
展开
-
hawq入门
1:高性能吞吐量和低延迟HAWQ的并行处理架构提供了高性能吞吐量和低延迟 - 可能接近实时的查询响应,可以扩展到PB级数据集。在Hadoop本地操作。SQL兼容性利用熟悉的技能 实现基于SQL的应用程序和BI /数据可视化工具的更高级别的兼容性。执行复杂的查询和连接,包括汇总和嵌套查询。Hadoop生态系统的可管理性和整合集成和管理与YARN。提供Ambari。原创 2017-09-12 21:21:48 · 1162 阅读 · 0 评论 -
Hadoop/Spark相关面试问题总结
http://blog.youkuaiyun.com/qq1010885678/article/details/46916857Hadoop/Spark相关面试问题总结面试回来之后把其中比较重要的问题记了下来写了个总结: (答案在后面)1、简答说一下hadoop的map-reduce编程模型2、hadoop的TextInputFormat作用是什么,如何自定义实现3、hadoop和spark的都是并行计算,那转载 2018-01-02 15:16:48 · 582 阅读 · 1 评论 -
Apache Curator Leader Election
http://blog.youkuaiyun.com/collonn/article/details/43968655用于Leader选举,也可以用Shared Reentrant Lock来实现。如果需要集群中的固定的一台机器去做的事,就可以用此特性来实现,直到这台Leader死去,会产生新的Leader。还有一种典型的场景,master-slave模式。也可以用Curator Leader Electio转载 2018-01-02 16:16:12 · 296 阅读 · 0 评论 -
关于Sentry
http://blog.youkuaiyun.com/largetalk/article/details/86408541. Sentry介绍及使用Sentry isa realtime event logging and aggregation platform. At its core it specializesin monitoring errors and extracting al转载 2018-01-03 11:55:39 · 762 阅读 · 0 评论 -
在Tachyon运行Spark应用程序
https://www.iteblog.com/archives/1498.htmlTachyon是什么Tachyon(/'tæki:ˌɒn/ 意为超光速粒子)是以内存为中心的分布式文件系统,拥有高性能和容错能力,能够为集群框架(如Spark、MapReduce)提供可靠的内存级速度的文件共享服务。Tachyon诞生于UC Berkeley的AMPLab,由该实验室的李浩源童鞋初创。2转载 2018-01-04 14:51:25 · 458 阅读 · 0 评论 -
分布式概述
作者:马超链接:https://www.zhihu.com/question/23645117/answer/124708083来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。作者:@马超Terminal 我的 Phd 研究方向是分布式系统,我老板也是搞分布式系统出身,我们实验室在这方面的积累还算不错,所以借此问题谈谈自己的看法。首先需要说明的转载 2018-02-02 11:04:29 · 735 阅读 · 0 评论