- 博客(14)
- 收藏
- 关注
原创 Spark On Yarn(HDFS HA)详细配置过程
一、服务器分布及相关说明1、服务器角色2、Hadoop(HDFS HA)总体架构 二、基础环境部署1、JDK安装http://download.oracle.com/otn-pub/java/jdk/7u45-b18/jdk-7u45-linux-x64.tar.gz# tar xvzf jdk-7u45-linux-x64.tar.gz -C/usr/lo...
2015-02-04 17:58:50
280
原创 Spark的YARN模式部署
1:Spark的编译Spark可以通过SBT(Scala Build Tool)或者Maven来编译,官方提供的二进制安装文件是用Maven编译,如果是要在YARN集群上运行的话,还需要再用SBT编译一下,生成YARN client端使用的jar包;最好是直接对源码使用SBT进行编译而生成YARN client端使用的jar包。笔者在测试过程中,对Maven编译过的Spark进行SBT二次编...
2015-02-04 17:50:59
354
原创 spark 安装
环境:CentOS 6.4, Hadoop 1.1.2, JDK 1.7, Spark 0.7.2, Scala 2.9.3折腾了几天,终于把Spark 集群安装成功了,其实比hadoop要简单很多,由于网上搜索到的博客大部分都还停留在需要依赖mesos的版本,走了不少弯路。1. 安装 JDK 1.7yum search openjdk-develsudo yum insta...
2015-02-04 17:48:42
170
原创 Spark的Standalone模式部署
1:Spark Standalone Mode安装A:部署包生成首先,下载并解压缩Spark的源码,切换到解压缩所生成的目录,运行部署包生成程序make-distribution.sh:./make-distribution.sh --hadoop 2.2.0 --with-yarn --tgz spark源码根目录下的make-distribution.sh可以带以下参数:...
2015-02-04 17:47:35
389
原创 Spark安装部署
Spark是UC Berkeley AMPLab开发的类MapRed计算框架。MapRed框架适用于batch job,但是由于它自身的框架限制,第一,pull-based heartbeat作业调度。第二,shuffle中间结果全部落地disk,导致了高延迟,启动开销很大。而Spark是为迭代式,交互式计算所生的。第一,它采用了actor model 的akka 作为通讯框架。第二, 它 使用...
2015-02-03 14:48:37
188
原创 在有openJDK的情况下,安装官方JDK,并改为默认
正准备将android的开发环境移至ubuntu下,因为相对来说linux对android还有些好处的。比如去玩内核或相关的东西。当然先去下载一个Sun的JDK(现在应该叫oracle的JDK,不过感觉还是SUN更明白)。下一个自解压的bin包,安装就是了。安装完后就会在安装包的目录下生成一个jdk的文件夹,这就是jdk。然后同样设置环境变量,方法很多。我就直接改 /etc/...
2015-02-03 14:43:39
855
原创 HDFS详解
【一】HDFS简介HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。-------------------------...
2015-02-03 14:08:10
158
原创 开源日志系统比较
1. 背景介绍 许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;(3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。...
2015-02-03 13:46:25
151
原创 Java开源BI商业智能工具
Pentaho Pentaho商业智能套件提供企业级报表制作、分析、数据挖掘、数据集成与工作流功能。还可以利用其灵活与完整的基础框架来构建自定义的BI应用套件。更多Pentaho信息 SpagoBI 商务智能套件SpagoBI提供一个基于J2EE的框架用于管理BI对象如报表、OLAP分析、仪表盘、记分卡以及数据挖掘模型等。它提供的BI管理器能够控制、校验、验证与分发...
2015-02-02 14:25:30
277
原创 Java自带的性能监测工具用法简介——jstack、jconsole、jinfo、jmap、jdb、jsta、jvisualvm...
JDK内置工具使用一、javah命令(C Header and Stub File Generator)二、jps命令(Java Virtual Machine Process Status Tool)三、jstack命令(Java Stack Trace)四、jstat命令(Java Virtual Machine Statistics Monitoring Tool)五、...
2015-02-02 14:23:28
163
Java NIO框架Mina、Netty、Grizzly介绍与对比
MinaMina(Multipurpose Infrastructure for Network Applications) 是 Apache组织一个较新的项目,它为开发高性能和高可用性的网络应用程序提供了非常便利的框架。当前发行的 Mina 版本2.04支持基于 JavaNIO 技术的 TCP/UDP 应用程序开发、串口通讯程序,Mina 所支持的功能也在进一步的扩展中。目前,正在使用Mi...
2015-02-02 14:17:15
171
原创 Jenkins入门总结
在网上貌似没有找到Jenkins的中文的太多的文档,有的都是关于Hudson的一些零零散散的,所以自己边学习边实践总结了以下系列文章,希望有助于大家对于Jenkins的使用。 本系列文章是基于我3年多的SCM+build release经验,总结了最常用的最基本功能,文章基本上来自于Jenkins官方网站的英文帮助的翻译和实际的例子和操作的截图,让大家能够快速直观地学习Jenkins。 ...
2015-02-02 14:12:34
117
2014年Java工具和技术排行榜
**JUnit – 82.5%*** – 最多开发人员使用的测试框架Jenkins – 70%º – 行业最广泛使用的CI服务器**Git – 69%*** – 第一的版本控制技术Hibernate – 67.5%* /º – 最广泛使用的ORM框架Java 7 – 65% – SE开发的行业领导者Maven – 64% – Java中最多使用的构建工具Nexus – 6...
2015-02-02 14:05:31
204
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅