szjianzr-优快云博客

原创 Win7下用Eclipse向Hadoop2.5.2集群提交MapReduce程序的注意事项

主要描述下，在Win7环境下，通过eclipse往集群提交MapReduce程序的过程。一、环境说明：开发环境：WIN7Eclipse版本：eclipse-jee-indigoHadoop版本：Hadoop2.5.2MR运行模式：Yarn 二、使用MapReduce的Eclipse插件：插件名称：hadoop-eclipse-plugin-2.5.2.ja...

2016-04-14 11:14:14 252

原创网站的高可用架构

一、高可用的网站架构网站的高可用架构设计的主要目的，就是保证服务器硬件故障时服务依然可用、数据依然保存并能够被访问。主要手段是数据和服务的冗余备份及失效转移。一个网站典型的分层模型是三层，即应用层、服务层、数据层。位于应用层的服务器通常为了应对高并发的访问请求，会通过负载均衡设备将一组服务器组成一个集群共同对外提供服务，当负载均衡设备通过心跳检测等手段监控到某台应用服务器不可用时，就...

2014-08-21 16:52:45 260

原创网站的高性能架构

一、Web前端性能优化1、浏览器访问优化：减少http请求：合并CSS、合并JavaScript、合并图片。将浏览器一次访问需要的JavaScript、CSS合并成一个文件。使用浏览器缓存：对于一个网站而言，CSS、JavaScript、Logo、图标等这些静态资源文件更新的频率都比较低，将这些文件缓存在浏览器中，可以极好地改善性能。启用压缩：在服务器端对文件进行压缩，在浏览器端...

2014-08-21 10:26:10 208

原创大型网站架构的归纳总结

一、大型网站架构演化发展历程：1、初始阶段的网站架构：应用程序、数据库、文件等资源均在同一台服务器上。2、应用服务和数据服务分离3、使用缓存改善网站性能4、使用应用服务器集群改善网站的并发处理能力5、数据库读写分离6、使用反向代理和CDN加速网站响应（）7、使用分布式文件系统和分布式数据库系统8、使用NoSQL和搜索引擎9、业务拆分10、分布式服务 ...

2014-08-20 14:45:45 190

原创 Hadoop集群管理需要了解的概念

搭建好Hadoop集群后，需要通过一些措施和方法，来保障集群的平衡运行。下面介绍Hadoop管理中会用到的相关概念或方法。1 HDFS1.1 永久性数据结构1.1.1 Namenode的目录结构hadoop@hhx247:/data/hadoop/hdfs/name$ ll current/total 31812-...

2014-08-08 09:57:59 237

原创 Hbase-管理及常见操作

一、常用的hbase shell命令运行./hbase shell进入操作环境，常用的命令有如下，可以直接输入某个命令关键字进行帮助查询：名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:',...

2014-08-07 11:39:27 144

原创 HBase简介

HBase是Apache Hadoop的数据库，能够对大型数据提供随机、实时的读写访问，是Google的BigTable的开源实现。HBase的目标是存储并处理大型的数据，更具体地说仅用普通的硬件配置，能够处理成千上万的行和列所组成的大型数据库。HBase是一个开源的、分布式的、多版本的、面向列的存储模型。可以直接使用本地文件系统也可使用Hadoop的HDFS文件存储系统。为了提高数据的可...

2014-08-07 09:57:11 203

原创 Hadoop的备份或迁移

Hadoop的备份或迁移，可以从三个角度进行考虑：一、Datanode数据备份Hadoop中的数据，可以通过dfs.replication来设置其备份的数量。具体参见安装部署过程中对hdfs-site.xml文件的配置。二、Namenode元数据备份通过SecondNameNode进行元数据的备份，当namenode出现异常时，可以从SecondNameNode进行恢复。三...

2014-08-07 09:35:44 1806

原创 hadoop,hbase集群管理

简单介绍hadoop1.0、hbase的进程及其启动、关闭等管理主要参考官网的帮助文档：Hadoop集群的部署及使用：http://hadoop.apache.org/docs/r1.2.1/cluster_setup.htmlhadoop集群的常用管理：http://hadoop.apache.org/docs/r1.2.1/commands_manual.htmlha...

2014-08-06 14:57:03 181

原创 Hadoop2.0- MapReduceV2(Yarn) 框架简介

一、原 Hadoop MapReduce 框架的问题Hadoop1.0的原 MapReduce 框架图：从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路：1、首先用户程序 (JobClient) 提交了一个 job，job 的信息会发送到 Job Tracker 中，Job Tracker 是 Map-reduce 框架的中心，他需要与集群中的机器定时...

2014-08-06 14:32:28 330

原创 Hadoop2.0-HA介绍

先介绍hadoop2.0 HA的基本原理和2种方式。一、概述在hadoop2.0之前，namenode只有一个，存在单点问题（虽然hadoop1.0有secondarynamenode，checkpointnode，buckcupnode这些，但是单点问题依然存在），对于只有一个NameNode 的集群，如果NameNode 机器出现故障，那么整个集群将无法使用，直到NameNode...

2014-08-06 14:06:58 253

原创 Hadoop1.0-MapReduce介绍

一、MapReduce介绍MapReduce是一种编程模型式，它是与处理/产生海量数据集的实现相关。用户指定一个map函数，通过这个map函数处理key/value（键/值）对，并且产生一系列的中间key/value对，并且使用reduce函数来合并所有的具有相同key值的中间键值对中的值部分。1、MapReduce处理大数据的基本构思：A、对付大数据处理----分而治之...

2014-08-06 11:27:10 485

原创 Hadoop1.0-HDFS介绍

Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括Hadoop Common、HDFS与MapReduce。 HDFS是Hadoop分布式文件系统（Hadoop Distributed File System）的缩写，为分布式计算存储提供了底层支持。采用Java语言开发，可以部署在多种普通的廉价机器上，以集群处理数量积达到大...

2014-08-06 10:03:58 380

git 基本操作

1、克隆自己的配置库:git clone ssh://{name@}ip:port/path2、拷贝hooks脚本至本地配置库 .git/hooks/scp -P 29418 -p ip:/hooks/commit-msg localpath/.git/hooks/此两个步骤只需在最开始时运行一次即可，除非需要重新建立本地配置库 3、切换至分支:git checkou...

2014-05-04 11:09:29 130

原创 linux NTP实现服务器时间同步

主要讲述在局域网中，以内部ntp服务器为数据服务器时钟的方法，可以实现对多台linux服务器的时间同步。一、查询是否安装ntp，若没有安装的话，先进行安装。查询方法：[root@test241 ~]#rpm –q ntpntp-4.2.4p8-2.el6.x86_64则表示已经有安装，或安装成功。二、ntp服务器端配置（192.168.1.1）1、设置服...

2014-04-26 10:43:51 274

原创 hadoop 集群管理-内存设置

1. 内存hadoop为各个守护进程（namenode,secondarynamenode,jobtracker,datanode,tasktracker）统一分配的内存在hadoop-env.sh中设置，参数为HADOOP_HEAPSIZE，默认为1000M。大部分情况下，这个统一设置的值可能并不适合。例如对于namenode节点，1000M的内存只能存储几百万个文件的数据块的引用。如...

2014-04-21 16:07:18 227

原创用MapReduce操作mongodb与hdfs的读写例子

需要引入的类包:mongo-java-driver-2.11.2.jar、mongo-hadoop-core_1.0.4-1.1.0.jar一、从MongoDB上读数据，进行MapReduce后，把结果在在HDFS上。1、Job的配置启动类:package com.test.similarity.dataimport;import org.apache.hadoop.co...

2014-02-13 13:50:37 432 1

原创 Hadoop 1.0 体系结构

HDFS和MapReduce是Hadoop的两大核心。Hadoop的体系结构主要是通过HDFS来实现分布式存储的底层支持的，通过MapReduce来实现分布式并行任务处理的程序支持。一、HDFS的体系结构。HDFS采用了主从（Master/Slave）结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中:NameNode作为主服务器，管理文件...

2014-02-11 14:23:53 1032

Yarn基本组成结构

Yarn基本组成结构一、ResourceManager:是一个全局的资源管理器，负责整个系统的资源管理和分配。它主要由两个组件构成:调度器(Scheduler)和应用程序管理器(ApplicationMaster)1)调度器(Scheduler):将系统中的资源分配给各个正在运行的应用程序；应用程序管理器(ApplicationMaster):负责管理整个系统中所有应用程序，包...

2014-02-11 11:20:25 441

MapReduce 1.0基本组成结构介绍

MapReduce 1.0基本组成结构介绍一、JobTracker:JobTracker是整个MapReduce计算框架中的主服务，相当于集群的管理者，负责整个集群的作业控制和资源管理。1）作业控制模块，负责作业的分解和状态的监控。其中，最重要的是状态的监控，主要包括TaskTracker状态监控、作业状态监控、任务状态监控等。其最主要的作用有两个:容错和为任务调度提供决策依据。...

2014-02-11 11:19:32 3387

原创 Task运行过程分析

2 Task运行过程分析Map Task分解成Read、Map、Collect、Spill、Combine五个阶段，Reduce Task分解成Shuffle、Merge、Sort、Reduce、Write五个阶段。2.1 Map Task整体流程1) Read阶段：Map Task通过用户编写的RecordReader，从输入InputSplit中解析出一个个key/value；...

2013-12-03 17:34:15 177

MapReduce编程模型简解

1 MapReduce编程模型根据运行顺序，主要由以下五部分组成：1.1 InputFormat主要用于描述输入数据的格式。提供以下两个功能：1) 数据切分：按照某个策略将输入数据切分成若干个split，以便确定Map Task个数以及对应的split；2) 为Mapper提供输入数据：给定某个split，能将其解析成一个个key/value对。包含算法：1) 文件...

2013-12-03 17:12:34 173

原创 JAVA读取系统参数设置的值

一、普通Java project:1、Eclipse下的系统参数设置:在VM arguments下，设置以下值:-DcrawlerHome=E:\crawler2、LINUX下的运行设置:用脚本启动时，启动的命令参数如下:${JAVA_HOME}/bin/java -DcrawlerHome=/usr/local/crawler -Xms512m -Xmx512m二...

2013-08-19 11:52:44 298

原创 linux 下安装mysql6.0

安装过程中，需要注意运行命令的用户。比如，以用户root运行本该用mysql用户运行的命令时，可能会造成后面的启动报错。1、下载源码包去 http://dev.mysql.com/downloads/mysql/6.0.html 里下载到 mysql-6.0.0-alpha.tar.gz2、创建mysql的用户组和用户[root@T5037 ~]# groupadd mys...

2012-02-09 15:24:01 481

原创 Hadoop集群的配置调优

一、背景HADOOP的配置优化，涉及到多方面，本部分主要针对HADOOP集群的配置优化进行汇总，以供参考。二、配置1、hdfs-site.xml配置文件1)、dfs.block.size：块大小的设置，也就是说文件按照多大的size 来切分块。一般来说，块的大小也决定了你map 的数量。举个例子：我现在有一个1T 的文件，如果我的块size 设置是默认的64M，那么在HDF...

2011-11-09 16:59:47 256

hadoop重用Decommission状态的数据节点

一、背景本篇主要针对Decommission状态的数据节点重用的处理方法。如果是完全新增一个服务器作为新增节点，可参考本博客：http://szjian.iteye.com/admin/blogs/1221163二、操作1、在$HADOOP_HOME目录下，新建一个slaves.include文件(此文件名可随机取).它是一个文本, 里面每行就是想要使用的主机名或IP地址。 ...

2011-11-04 10:11:47 523

hadoop的namenode和secondnamenode分开部署在不同服务器

一、系统环境：Hadoop 0.20.2、JDK 1.6、Linux操作系统二、使用背景网上关于hadoop的集群配置，很多情况下，都是把namenode和secondnamenode部署在同一服务器上。为了降低风险，一个大的集群环境，最好是把这两个配置到不同的服务器上。三、操作要达到这要求，需要对conf/master、conf/hdfs-site.xml和conf/...

2011-11-03 17:55:52 679

HADOOP1.0集群停用数据节点

一、停止数据节点的方法：向名称节点通知希望停止的节点，使其能在数据节点关闭之前，将数据块复制到其他数据节点中。二、操作步骤：1、必须先确认集群是在运行中。并且已经退出的安全模式。安全模式状态的查看：-bash-3.2$ ./bin/hadoop dfsadmin -safemode getSafe mode is OFF2、首先建立一个slaves.exclude文...

2011-11-03 15:18:34 351

java 实现相似度算法

通过JAVA编程，使用余弦定理，相似度算法的实现 /** * 计算带有权重的相似度 * @param dict1：Map：Map * @param dict2：Map：Map * @return */ public double similarity(Map dict1,Map dict2){ double similarity = 0.0, num...

2011-11-01 09:15:15 684

HADOOP1.0集群新增数据节点

一、创建用户groupadd analyzer -fuseradd analyzer -d /opt/analyzer -g analyzer -p searchanalyzer二、处理/etc/hosts文件三、设置免密码登录（多台机器的id_rsa.pub，相互拷贝）生成公钥、密钥：ssh-keygen -t rsa复制本地id_rsa.pub到远程服务器，...

2011-11-01 09:14:53 145

HADOOP1.0-hadoop、hive、derby安装部署手册

HADOOP集群安装部署1 前言本文档是设想在多台服务器上部署HADOOP的实现过程；2 创建用户建议同个集群中的用户和用户组，都是相同的，以便管理和维护。2.1 生成创建用户的运行角本为不同服务器创建同样的用户和组，创建脚本的目的是让不同服务器可以直接运行此脚本，实现用户创建的过程。用root用户登录li...

2011-11-01 09:14:11 175

linux下的FTP设置

0.安装vsftpd-2.0.1-5.i386.rpm,命令如下:rpm -ivh vsftpd-2.0.1-5.i386.rpm;1.在图形界面的删除/添加组件下,安装ftp功能组件;2.进入linux命令行,进入目录:cd /etc/vsftpd;3.编辑vsftpd.conf文件:vi vsftpd.conf;4.找到anonymous_enable=YES,把YES改为NO...

2011-10-31 09:26:54 128

原创 Hive UDF开发

Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。Hive的UDF开发只需要重构UDF类的evaluate函数即可。例：package com.hrj.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;public class helloUDF...

2011-10-31 09:26:36 119

htmlparser获取循环节点内容和单个标签内容的方法

htmlparser接口可用于提取分析html页面的内容。本文只简单说明下如何利用htmlparser获取某个节点标签的内容，和获取循环节点的列表内容的个人总结。其它操作方法，因网上已经有很多相关的帮助文档，在此不再重复说明。大致思路：1：定义org.htmlparser.filters的类型，确定需要获取的标签或内容范围。常用的HMLT filter类型有：AndFilter、H...

2011-10-31 09:26:24 546

HBase 是Hadoop的一个子项目,HBase采用了Google BigTable的稀疏的,面向列的数据库实现方式的理论,建立在hadoop的hdfs上,一方面里用了hdfs的高可靠性和可伸缩行,另外一方面里用了BigTable的高效数据组织形式.可以说HBase为海量数据的real-time相应提供了很好的一个开源解决方案.据说在某运营商中使用类似于 BigTable(个人猜测应该就是HBa...

2011-10-31 09:26:11 119

原创 MyEclipse快捷键

MyEclipse快捷键（1）Ctrl+M切换窗口的大小（2）Ctrl+Q跳到最后一次的编辑处（3）F2当鼠标放在一个标记处出现Tooltip时候按F2则把鼠标移开时Tooltip还会显示即Show Tooltip Description。F3跳到声明或定义的地方。F5单步调试进入函数内部。F6单步调试不进入函数内部，如果装了金山词霸2006则要把“取词开关”的快捷键改成...

2011-10-31 09:25:51 99

SecureCRT 工具显示乱码

SecureCRT 工具显示乱码解决方法是： 1，修改远程linux机器的配置 vim /etc/sysconfig/i18n 把LANG改成支持UTF-8的字符集如： LANG=”zh_CN.UTF-8″ 或者是 LANG=”en_US.UTF-8″然后再改Secure CRT的设置选项->会话选项->外观->字符编码->uft-82、...

2011-10-30 16:03:40 172

解决 IE8 经常需要刷新出现此选项卡已经恢复的问题

安装了IE8使用之后，有个很烦人的事情，页面老是跑死，然后需要刷新，弹出提示此选项卡已经恢复后，页面如果没有问题，才可以正常浏览。解决办法就是关闭SmartScreen筛选器。打开IE8的工具->选项->安全->选择Internet->自定义级别，找到使用 SmartScreen 筛选器，选择禁用，然后确定就可以了。...

2011-10-30 16:03:15 515

原创 MyEclipse 8.0下SVN插件的使用

svn(subversion)是近年来崛起的版本管理工具，是cvs的接班人。目前，绝大多数开源软件都使用svn作为代码版本管理软件。Svn 分为服务器端和客户端口服务器端:一般在开发的工程中在我们的公司有有一个服务器这个服务器可能有数据库SVN SVN作用就是统一我们工程的版本一致性，可以起到实时的提交代码我们要svn的服务器端装在这里客户端：MyEclipse...

2011-10-30 16:02:57 130

oracle10g for linux 安装

以下操作1—7步为root用户1. 硬件环境要求检查内容最小值检查命令参考物理内存 512M # grep MemTotal /proc/meminfo 交换空间 1.0 GB或者2倍内存大小 # grep SwapTotal /proc/meminfo /tmp 空间 400 MB # df -k /tmp 软件所需空间 2.5 GB # df -k (空间越大越好...

2011-10-30 16:02:33 166

空空如也

空空如也