
spark
lalaguozhe
陈昱康,对分布式计算和存储、调度、查询引擎、在线离线混部、数据安全,工具平台,高并发等方面有丰富研发和实践经验
展开
-
携程Hadoop跨机房架构实践
陈昱康,携程架构师,对分布式计算和存储、调度、查询引擎、在线离线混部、高并发等方面有浓厚兴趣。 本文将分享携程Hadoop跨机房架构实践,包含Hadoop在携程的发展情况,整个跨机房项目的背景,我们跨机房的架构选型思路和落地实践,相关的改造和对未来的展望,希望给大家一些启迪。 一、Hadoop在携程的落地及发展情况 携程Hadoop是从2014年引进的,基本上每年较前一年以两倍的速度在...原创 2020-02-29 11:49:08 · 615 阅读 · 0 评论 -
Spark安装部署
Spark是UC Berkeley AMPLab开发的类MapRed计算框架。MapRed框架适用于batch job,但是由于它自身的框架限制,第一,pull-based heartbeat作业调度。第二,shuffle中间结果全部落地disk,导致了高延迟,启动开销很大。而Spark是为迭代式,交互式计算所生的。第一,它采用了actor model的akka作为通讯框架。第二,它使用了RDD分原创 2013-09-23 10:44:32 · 11567 阅读 · 1 评论 -
hive0.11升级碰到的坑
上周我们的production环境正式上线了hive 0.11/spark 0.8/shark 0.8,在前期的测试和回归过程中碰到了很多坑,这边记录一下,有其他公司要上的话,可以少走些弯路。 1. Hive 0.11对于每一个分区维护了各自的Schema信息,而0.9中的分区是复用Table Schema来做字段的Serde,如果一张表新增字段,再创建分区,新建的分区会继承Table Sche原创 2013-12-23 16:54:59 · 4249 阅读 · 1 评论