
大数据开发
屈世超
当我们看透生活的真相,却依然热爱生活
展开
-
Dr.Elephant启动过程问题汇总
这篇文章总结了Dr.Elephant在启动过程中遇到的各种问题,欢迎大家补充指点学习。原创 2016-05-07 00:41:32 · 2958 阅读 · 0 评论 -
Flume系统搭建和使用的一些经验总结-搭建篇
对于很多公司来说,日志的收集和集中管理是一个必然要经历的阶段。我们公司在经历了一拖再拖之后,终于不得不开始搭建日志收集系统了。对于日志收集系统,我们的首选就是Flume。为何这么坚决呢,难道没有其他工具能做个这个事情么?当然有!不过,考虑到Flume的简单易用,稳定性和高扩展性,它是我们的最佳选择。(期间调研过很多人对于Flume/Scribe等日志收集工具的对比分析,一个直观的感觉是:Flu原创 2017-01-13 20:12:49 · 2367 阅读 · 0 评论 -
移动App统计指标汇总
这篇文章详细汇总介绍了移动App的统计指标。原创 2016-06-14 17:25:05 · 6840 阅读 · 0 评论 -
产品数据分析指南
诸葛IO公司总结了一篇文章《产品经理-数据分析实战手册》。这个文章非常好,对于产品运营的指导意义很大。原文章的链接如下:https://zhugeio.com/solutions/product/treasure/zhugeio-pm-data-analysis-guide-v0.285714.pdf下面是对这个文章的核心内容的总结:产品数据分析的"上帝指标"新增活原创 2016-06-15 18:46:02 · 1236 阅读 · 0 评论 -
数据开发工程师,你需要哪些技能?
闲话不多说,直接切入正题。作为一个数据开发工程师,我们需要具备的技能如下。理解公司的商业目标和商业策略理解数据分析的意义和方法具备工程技术能力理解公司的商业目标和商业策略原创 2016-07-04 20:04:11 · 1949 阅读 · 0 评论 -
核心流程 - 【Dr.Elephant源码分析系列文章-2】
关于如何开始代码部分的分析,我思考了许久。原因如下:Dr.Elephant的核心代码不多,截止到我读代码时,一共1万行左右。核心代码部分比较集中,可以通过一篇文章来分析完。Dr.Elephant的扩展性非常好,在介绍源码时,扩展性也是非常值得介绍的。Dr.Elephant启动入口app/Global.java类继承了play框架的 GlobalSettings 类,并覆盖了其中的onS原创 2016-06-06 11:19:23 · 1125 阅读 · 0 评论 -
综述 - 【Dr.Elephant源码分析系列文章-1】
Dr.Elephant是LinkedIn于2016年4月开源的一个Hadoop平台性能调优工具。我们可以从这个链接获取源码:https://github.com/linkedin/dr-elephant。Dr.Elephant的问世将改变Hadoop/Spark用户的开发习惯,同时也将大大减少Hadoop平台开发者和管理者的负担。可以预见到,在未来较短的一段时间内,Dr.Elephant将会存原创 2016-05-20 16:03:20 · 1725 阅读 · 0 评论 -
Dr.Elephant简介 - 【Dr.Elephant系列文章-1】
Dr.Elephant被定位成一个对Hadoop和Spark任务进行性能监控和调优的工具,它能够自动收集Hadoop平台所有的度量标准,并对收集的数据进行分析,最终以一种简单且易于理解的形式展示出来。Dr.Elephant的设计目的是通过指导Hadoop/Spark开发者对其任务进行便捷的优化,从而提高开发者的效率以及Hadoop集群的使用效率。在Dr.Elephant中定义了一系列的启发式算法(翻译 2016-04-26 11:30:09 · 7313 阅读 · 3 评论 -
FAQ 常见问题 -【Dr.Elephant系列文章-8】
这篇文章列举了一些常见的问题,以及一些建议来帮助我们解决实际遇到的问题。1. Dr.Elephant部署在哪里?Dr.Elephant需要部署在一个有Hadoop平台环境的机器上。Er.Elephant会在集群上运行“hadoop classpath”命令来获得classpaht中所有的配置和jar包。通过这些配置,可以获得对资源管理器和历史任务服务器的连接。Dr.Elephant还会运行翻译 2016-05-09 15:51:51 · 1862 阅读 · 2 评论 -
Dr.Elephant Rest API -【Dr.Elephant系列文章-7】
有的情况下,用户可能不能访问Dr.Elephant的UI界面,但是需要和Dr.Elephant进行交互来获得Dr.Elephant的一些分析结果。Dr.Elephant提供了Rest API来满足用户的这个需求。根据ID获得应用信息根据任务的ID,可以获得任务的详细信息以及启发式算法的分析结果。URIhttp:///rest/job请求参数parameter翻译 2016-05-08 23:25:16 · 1414 阅读 · 0 评论 -
Hadoop任务优化建议 - 【Dr.Elephant系列文章-6】
使用Dr.Elephant来分析我们的任务,可以知道有哪些地方可以进行优化。加速你的任务流程对于特定的任务,最好有特定的参数配置。对于很多的应用场景来说,默认的任务配置并不能保证每个任务都有最好的性能。尽管对这些任务进行调优会花费一些时间,但是这些调优带来的性能提升是非常可观的。有几个任务参数需要特别注意:mapper数量,reducer数量,io.*的配置,内存使用设置以及生成的文件翻译 2016-05-08 23:04:01 · 1715 阅读 · 0 评论 -
Dr.Elephant 部署启动详细流程
这部分介绍自己在部署和启动Dr.Elephant过程总结的一些经验,希望对大家有帮助。原创 2016-05-06 22:11:56 · 3248 阅读 · 2 评论 -
Dr.Elephant用户指南 - 【Dr.Elephant系列文章-2】
这篇文章介绍怎么样使用Dr.Elephant来进行任务分析。UI首页Dr.Elephant启动后,首页如下:集群统计信息首页的灰色部分包含了最新的集群信息。这部分列出了最近24小时分析过的任务数量、可以进行优化的任务数量以及亟待优化的任务数量。最新任务统计这一部分列出了最近一段时间分析的任务。搜索页首页点击“Search”进入翻译 2016-04-27 10:21:00 · 6795 阅读 · 0 评论 -
Dr.Elephant开发者指南 - 【Dr.Elephant系列文章-3】
本文介绍了Dr.Elephant开发者如何获取源代码,以及如何在本地部署运行Dr.Elephant。详细内容包括Dr.Elephant的环境依赖以及代码结构以及Dr.Elephant中最重要的部分:启发式算法。翻译 2016-04-28 14:44:44 · 2889 阅读 · 0 评论 -
Dr.Elephant部署指南 - 【Dr.Elephant系列文章-4】
本文介绍了如何在集群上安装部署Dr.Elephant以及如何启动/停止Dr.Elephant。翻译 2016-04-28 15:22:33 · 1896 阅读 · 0 评论 -
Dr.Elephant启发式算法指南 - 【Dr.Elephant系列文章-5】
这篇文章介绍了Dr.Elephant中默认提供的对于MapReduce任务和Spark任务的启发式算法。分别介绍了每个启发式算法的一些概念以及计算方法。翻译 2016-05-06 00:04:06 · 2577 阅读 · 0 评论 -
数据分析和用户增长的思维导图
数据分析,用户增长,是否感觉无从下手? 本文介绍一种思维模式,避免只见树木,不见森林。原创 2017-08-10 11:33:21 · 18178 阅读 · 1 评论