
平台
文章平均质量分 81
ebay
这个作者很懒,什么都没留下…
展开
-
在开发测试中使用HBaseMiniCluster
Author: Shi, Shaofeng 为了方便开发人员,HBase以及其它Hadoop组件提供了Mini Cluster的运行方式:在一个JVM里模拟运行Hadoop集群,包括HDFS,Zookeeper,HBase 以及MapReduce;如果你需要运行一些简单的代码或测试案例,或者想在IDE中通过断点来调试,那么这时候用Mini Cluster就再合适不过了;HBase原创 2015-02-05 15:46:16 · 2620 阅读 · 1 评论 -
Hadoop作业性能指标及参数调优实例 (三)Hadoop作业性能参数调优方法
eBay拥有8个Hadoop集群,7000+节点,使用eBay Eagle进行集群管理,eBay平台支持团队提供技术咨询,帮助用户有效利用大数据。基于用户咨询,我们以Hadoop作业性能为研究范畴,阐述作业性能指标,给出参数调优建议。原创 2015-08-11 14:42:06 · 3483 阅读 · 0 评论 -
支付结果通知机制研究
支付结果通知看似一个很简单的需求,但是做到一个安全高效可靠的架构和设计也是值得研究和探讨的一个问题。本文通过总结实战中不同的通知机制的研究分析,希望从中找到需求的本质,从而启发我们如何更好的在今后的工作中设计通知机制。原创 2015-09-29 16:19:26 · 5653 阅读 · 0 评论 -
eBay RUM实践
RUM是网站性能监控中常用的技术,它能够够真实的反应用户使用网站的性能情况。eBay基于RUM的思想,开发了Sitespeed Gauge工具,监控了用户客户端浏览器中页面加载的各个重要时间信息,以及页面广告加载时间、用户感知时间等自定义的性能指标。原创 2015-09-29 11:10:21 · 1413 阅读 · 0 评论 -
Apache Kylin的快速数据立方体算法——概述
Apache Kylin(麒麟)是由eBay贡献给开源社区的大数据分析引擎,支持在超大数据集上进行秒级别的SQL及OLAP查询,目前是Apache基金会的孵化项目[1]。本文是一系列介绍快速数据立方体计算(Fast Cubing)的第一篇,将从概念上介绍新算法与旧算法的区别以及分析它的优劣。转载 2015-09-16 15:29:51 · 2237 阅读 · 0 评论 -
Apache Eagle:eBay开源分布式实时Hadoop数据安全引擎
日前,eBay公司隆重宣布正式向开源业界推出实时分布式Hadoop数据安全方案 - Apache Eagle,作为一套旨在提供高效分布式的流式策略引擎,并集成机器学习对用户行为建立Profile以实时智能地保护Hadoop生态系统中大数据安全的解决方案。原创 2015-11-17 14:04:07 · 1561 阅读 · 0 评论 -
Ebay开源:Eclipse Plugin Repository Portal
Eclipse Plugin Repository Portal是eBay开源的关于eclipse插件管理的软件。其集中化的管理方式,可视化的操作界面简化了插件管理的流程,减少了人为因素引起的错误,使得插件开发和版本发布的效率得到极大提升,间接保证了软件开发的质量。原创 2015-11-23 09:38:26 · 1165 阅读 · 0 评论 -
Ebay开源基于大数据的可视化框架:Pulsar Reporting
ebay又新添了一个开源项目Pulsar Reporting – 基于大数据的可视化框架.原创 2015-12-28 10:42:17 · 11015 阅读 · 2 评论 -
MapOutputBuffer理解的三重境界
MapOutputBuffer作为MapTask的内部类,是MR中二次排序非常重要的一环。本文从基本认识,到详细过程,再到源码级别,由浅入深的介绍了这个类。原创 2015-12-07 14:20:50 · 3028 阅读 · 1 评论 -
Druid at Pulsar
Pulsar is an open source project of eBay and it includes two parts, pulsar pipeline and pulsar reporting. Pulsar pipeline is a streaming framework which will distribute more than 8 billion events every day and pulsar reporting is in response of storing, qu原创 2015-12-07 14:47:57 · 9170 阅读 · 1 评论 -
Resource Overload Analysis on Hadoop Job Failure
eBay analytics platform has 3 shared Hadoop clusters with 6000+ nodes as well as 6 shared Hadoop clients for 400+ batch users and 2900+ individual users. So resource competition is common. I’ll analyze the resource overload issue from the four respects: H原创 2016-04-05 13:48:20 · 1308 阅读 · 0 评论 -
从数据仓库到数据视图
如何根据业务需求交付数据产品?一系列步骤可以帮助你理解亿贝的实践:1. 选择合适的数据仓库 2.建立数据模型 3. 利用第三方数据 4.使用数据库小工具 5.数据集市的使用和管理 6.制作数据视图。原创 2016-04-15 13:34:49 · 3808 阅读 · 1 评论 -
Griffin – 模型驱动的数据质量服务平台
Griffin是一个应用于分布式数据系统中的开源数据质量解决方案,例如在Hadoop, Spark, Storm等分布式系统中,Griffin提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。原创 2016-09-14 13:50:35 · 14067 阅读 · 4 评论 -
细数Kubernetes Service那些事-kubernetes 服务发布以及在eBay的实践
eBay自2014年末开始kubernetes的落地工作,并在2015年扩大研发投入。目前kubernetes已经部署在eBay的生产环境,并将作为下一代云计算平台。本文结合社区kubernetes的设计和实现,并结合openstack云基础架构,深入分析kubernetes服务部署的设计与实现。如果您在寻找服务发布的方案或者在寻找kubernetes服务相关的模块的原理或行为,阅读本文会让你有比较明确的方向。原创 2016-10-12 16:22:17 · 22340 阅读 · 2 评论 -
The design and implementation of a system to detect and filter large sessions automatically
Large sessions waste a lot of computing resources and extend the delivery time of MapReduce jobs. Automatically detecting and filtering large sessions guarantee cleaner data and better system without extra human involvement. Our sytem maintains a large ses原创 2017-01-12 13:27:57 · 1445 阅读 · 0 评论 -
Hadoop集群硬盘故障分析与自动化修复
硬盘在服务器中起着至关重要的作用,对于硬盘的管理是IAAS部门的责任,但作为业务运维也需要懂得相关的技术。可以采用LVM或裸盘来管理硬盘,用裸盘的好处是节省了硬盘I/O速度。需要根据不同的场景采用不同的方式来管理。原创 2015-08-11 15:10:57 · 3706 阅读 · 0 评论 -
Hadoop作业性能指标及参数调优实例 (一)Hadoop作业性能异常指标
eBay拥有8个Hadoop集群,7000+节点,使用eBay Eagle进行集群管理,eBay平台支持团队提供技术咨询,帮助用户有效利用大数据。基于用户咨询,我们以Hadoop作业性能为研究范畴,阐述作业性能指标,给出参数调优建议。原创 2015-08-11 14:33:26 · 3806 阅读 · 0 评论 -
DBA的新领域:调试Oracle(进阶篇)
Author: Lv, Haibo摘要:调试Oracle的意义 ---- 无限风光在险峰我把用DTrace和mdb,分析、研究Oracle称为“调试Oracle”,这是一个新的领域。它比传统DBA要求更高,除掌握Oracle内部原理外,它也要求更多的计算机底层知识,因为个别时候,我们需要到反汇编代码中,一探研究。那么究竟调试Oracle技术可以为DBA带来什么改变呢?本文想给各位原创 2015-02-05 15:55:46 · 1508 阅读 · 0 评论 -
你好,HBase
Author: Fang, Chen, Ma,Guolai现代的互联网应用引发了对极大规模数据进行快速处理的需求,大数据带来的信息风暴正在变革我们的生活、工作甚至思维方式。如果你对“大数据”尚感陌生的话,那么建议可以先读一读维克托的《大数据时代》。当然,作为一名地地道道的“程序猿”,不断革新的技术才是最令人身心颤动的。在大数据时代下,Hadoop获得的成功我想已无需赘述。但俗话说原创 2015-02-05 16:03:40 · 793 阅读 · 0 评论 -
基于Apache Mesos 构建高可靠,高可用的Jenkins CI
Author: Mao, James Mesos 计算框架是一个开源的集群管理平台,他提供了高效的,高可靠的,跨应用/框架的资源隔离和共享,在其之上可以运行Hadoop,Spark,JBoss,Ruby On Rails等应用框架,支持多种资源的计划分配。其中主要的一个目的就是有效的利用和共享计算资源,避免资源的浪费。Mesos 起源于Twitter和AirBnB,Twitter和A原创 2015-02-05 16:08:29 · 4997 阅读 · 0 评论 -
调试Oracle 之一 基础篇
Author: Lv, Haibo.前言 “多年之后,面对枪决行刑队,奥雷良诺•布恩迪亚上校将会想起,他父亲带他去见识冰块的那个遥远的下午”。《百年孤独》的这个开头堪称经典。倒序的方法,加上时间状语“多年之后”,苍桑感一下子就出来了。何况又是面对行刑队,悲剧感也很强烈。要知道文学作品最能打动人心的,就是悲剧。比如,我至今还记得最短、最悲伤的爱情小说:“我爱你!!!原创 2015-02-05 16:06:40 · 1105 阅读 · 0 评论 -
支付系统监控实践
Author: Hu, Elvin摘要 监控(Monitor)对服务(Service)的重要性不言而喻。一个配置了有效以及可靠的监控的系统,就像拥有不间断雷达和卫星跟踪保护的民航飞机一样, 让人放心,在关键时刻亦能最大程度的发出警报并减少灾难带来的后果。 智能判断样本是否超越警戒线不是一件容易的事情。漏报和过多的误报都不可取。而样本通常由用户行为原创 2015-02-05 15:39:54 · 3536 阅读 · 0 评论 -
分布式文件系统概述
Author: Ma, Guolai.文件系统是操作系统用来组织磁盘文件的方法和数据结构。传统的文件系统指各种UNIX平台的文件系统,包括UFS、FFS、EXT2、XFS等,这些文件系统都是单机文件系统,也称本地文件系统。随着网络的兴起,为了解决资源共享问题,出现了分布式文件系统。分布式文件系统是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。本文由原创 2015-02-05 16:06:00 · 3250 阅读 · 0 评论 -
CMS - Configuration management service based on MongoDb
Author: Su, Ralph AbstractConfiguration management database (CMDB) is commonly used to store the management items inside an organization/company. CMDB typically designed as a centralized d原创 2015-02-05 16:13:35 · 1537 阅读 · 1 评论 -
Improve API Gateway Throttling
Author: Zhan, James.What is throttling?Throttling is a flow control feature that limits access to resource to a certain number of times. Once the upper limit or threshold is reached, access t原创 2015-02-05 16:00:04 · 1121 阅读 · 0 评论 -
Disruptor Ring Buffer as a Blocking Queue
Author:Wang, Xinglang AbstractFor any concurrent multi-threaded system, distributed computing or otherwise,the inter-thread messaging component is an very important component. In Java, the JDK p原创 2015-02-05 15:45:00 · 1605 阅读 · 0 评论 -
基于OAUTH的电子商务支付集成研究与实现
Author: Xie, James背景 支付实际上可以分为线上支付和线下支付。线上支付也就是通常所说的网银支付,线下支付通常指的是POS机刷卡支付。 第三方支付公司产生之前,对于线下支付而言,商户,包括酒店,商场,保险公司等,如果想要做银行卡支付业务,那么首先需要到银行开具资产证明等一系列担保措施,充分认定资质以后或许能开立一个POS机刷卡帐户,才能让原创 2015-02-05 15:35:28 · 2950 阅读 · 0 评论 -
Ebay开源 Pulsar:实时大数据分析平台
eBay已经开源了一种实时大数据分析的平台—— Pulsar,它利用了分布式处理和Complex Event Processing技术,实现了一个低延迟,高可靠的分布式实时分析平台。原创 2015-03-02 13:23:51 · 6994 阅读 · 0 评论 -
MapReduce的详细过程
MapReduce作为hadoop的编程框架,是工程师最常接触的部分,也是除去了网络环境和集群配 置之外对整个Job执行效率影响很大的部分,所以很有必要深入了解整个过程。本文写作的目的在于使得读者对整个MapReduce过程有比较细致的了解,当自己需要定制MapReduce行为时,知道该重写 哪些类和方法。在写作时,我贴了部分认为重要的源码和接口,并跟着自己的理解,对于某些内容,结 合了自己在工作中遇到的问题,给出了实践参考。原创 2015-05-14 16:02:46 · 7823 阅读 · 1 评论 -
SolrCloud之分布式索引及与Zookeeper的集成
SolrCloud是Solr4.0版本开发出的具有开创意义的基于Solr和Zookeeper的分布式搜索方案,主要思想是使用Zookeeper作为集群的配置信息中心,管理和监控索引的创建、更新和查询,通过,索引的切分和合并机制为用户提供高效、快捷、稳定的索引服务。原创 2015-06-18 16:27:39 · 6325 阅读 · 1 评论 -
Kafka的分布式架构设计与High Availability机制
最初,Kafka实际上是LinkedIn用于日志处理的分布式消息队列,现今,Kafka主要用于处理活跃的流式数据,如分析用户的行为,对用户搜索关键词进行统计以便分析出当前的流行趋势,存数据库浪费,而直接用传统的存硬盘方式效率又低下的业务数据也可以使用Kafka的分布式进行存储。原创 2015-06-18 16:41:23 · 9280 阅读 · 1 评论 -
Hadoop作业性能指标及参数调优实例 (二)Hadoop作业性能调优7个建议
eBay拥有8个Hadoop集群,7000+节点,使用eBay Eagle进行集群管理,eBay平台支持团队提供技术咨询,帮助用户有效利用大数据。基于用户咨询,我们以Hadoop作业性能为研究范畴,阐述作业性能指标,给出参数调优建议。原创 2015-08-11 14:39:06 · 2552 阅读 · 0 评论 -
RPC in oslo.messaging
This post introduces the logic of rpc client in oslo.messaging, which is widely used inOpenstack ecological system.原创 2017-01-12 15:46:24 · 1314 阅读 · 0 评论