自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Spark On Yarn(HDFS HA)详细配置过程

一、服务器分布及相关说明1、服务器角色2、Hadoop(HDFS HA)总体架构 二、基础环境部署1、JDK安装http://download.oracle.com/otn-pub/java/jdk/7u45-b18/jdk-7u45-linux-x64.tar.gz# tar xvzf jdk-7u45-linux-x64.tar.gz -C/usr/lo...

2015-02-04 17:58:50 280

原创 Spark的YARN模式部署

1:Spark的编译Spark可以通过SBT(Scala Build Tool)或者Maven来编译,官方提供的二进制安装文件是用Maven编译,如果是要在YARN集群上运行的话,还需要再用SBT编译一下,生成YARN client端使用的jar包;最好是直接对源码使用SBT进行编译而生成YARN client端使用的jar包。笔者在测试过程中,对Maven编译过的Spark进行SBT二次编...

2015-02-04 17:50:59 354

原创 spark 安装

环境:CentOS 6.4, Hadoop 1.1.2, JDK 1.7, Spark 0.7.2, Scala 2.9.3折腾了几天,终于把Spark 集群安装成功了,其实比hadoop要简单很多,由于网上搜索到的博客大部分都还停留在需要依赖mesos的版本,走了不少弯路。1. 安装 JDK 1.7yum search openjdk-develsudo yum insta...

2015-02-04 17:48:42 170

原创 Spark的Standalone模式部署

1:Spark Standalone Mode安装A:部署包生成首先,下载并解压缩Spark的源码,切换到解压缩所生成的目录,运行部署包生成程序make-distribution.sh:./make-distribution.sh --hadoop 2.2.0 --with-yarn --tgz spark源码根目录下的make-distribution.sh可以带以下参数:...

2015-02-04 17:47:35 389

原创 Spark安装部署

Spark是UC Berkeley AMPLab开发的类MapRed计算框架。MapRed框架适用于batch job,但是由于它自身的框架限制,第一,pull-based heartbeat作业调度。第二,shuffle中间结果全部落地disk,导致了高延迟,启动开销很大。而Spark是为迭代式,交互式计算所生的。第一,它采用了actor model 的akka 作为通讯框架。第二, 它 使用...

2015-02-03 14:48:37 188

原创 在有openJDK的情况下,安装官方JDK,并改为默认

正准备将android的开发环境移至ubuntu下,因为相对来说linux对android还有些好处的。比如去玩内核或相关的东西。当然先去下载一个Sun的JDK(现在应该叫oracle的JDK,不过感觉还是SUN更明白)。下一个自解压的bin包,安装就是了。安装完后就会在安装包的目录下生成一个jdk的文件夹,这就是jdk。然后同样设置环境变量,方法很多。我就直接改 /etc/...

2015-02-03 14:43:39 855

原创 HDFS详解

【一】HDFS简介HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。-------------------------...

2015-02-03 14:08:10 158

原创 开源日志系统比较

1. 背景介绍 许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;(3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。...

2015-02-03 13:46:25 151

大数据学习资源

http://dongxicheng.org/recommend/

2015-02-03 13:41:55 133

原创 Java开源BI商业智能工具

  Pentaho Pentaho商业智能套件提供企业级报表制作、分析、数据挖掘、数据集成与工作流功能。还可以利用其灵活与完整的基础框架来构建自定义的BI应用套件。更多Pentaho信息  SpagoBI 商务智能套件SpagoBI提供一个基于J2EE的框架用于管理BI对象如报表、OLAP分析、仪表盘、记分卡以及数据挖掘模型等。它提供的BI管理器能够控制、校验、验证与分发...

2015-02-02 14:25:30 277

原创 Java自带的性能监测工具用法简介——jstack、jconsole、jinfo、jmap、jdb、jsta、jvisualvm...

JDK内置工具使用一、javah命令(C Header and Stub File Generator)二、jps命令(Java Virtual Machine Process Status Tool)三、jstack命令(Java Stack Trace)四、jstat命令(Java Virtual Machine Statistics Monitoring Tool)五、...

2015-02-02 14:23:28 163

Java NIO框架Mina、Netty、Grizzly介绍与对比

MinaMina(Multipurpose Infrastructure for Network Applications) 是 Apache组织一个较新的项目,它为开发高性能和高可用性的网络应用程序提供了非常便利的框架。当前发行的 Mina 版本2.04支持基于 JavaNIO 技术的 TCP/UDP 应用程序开发、串口通讯程序,Mina 所支持的功能也在进一步的扩展中。目前,正在使用Mi...

2015-02-02 14:17:15 171

原创 Jenkins入门总结

在网上貌似没有找到Jenkins的中文的太多的文档,有的都是关于Hudson的一些零零散散的,所以自己边学习边实践总结了以下系列文章,希望有助于大家对于Jenkins的使用。 本系列文章是基于我3年多的SCM+build release经验,总结了最常用的最基本功能,文章基本上来自于Jenkins官方网站的英文帮助的翻译和实际的例子和操作的截图,让大家能够快速直观地学习Jenkins。 ...

2015-02-02 14:12:34 117

2014年Java工具和技术排行榜

**JUnit – 82.5%*** – 最多开发人员使用的测试框架Jenkins – 70%º – 行业最广泛使用的CI服务器**Git – 69%*** – 第一的版本控制技术Hibernate – 67.5%* /º – 最广泛使用的ORM框架Java 7 – 65% – SE开发的行业领导者Maven – 64% – Java中最多使用的构建工具Nexus – 6...

2015-02-02 14:05:31 204

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除