
分布式
奔跑着的国风
为了梦想,一切都是值得的!!!加油吧,小伙伴们!!!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop是什么?
Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算. Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算. 数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集转载 2016-07-03 12:07:46 · 793 阅读 · 0 评论 -
Hadoop--07--MapReduce高级编程
. Changing MapReduce jobs 1.1 Chaining MapReduce jobs in a sequence MapReduce程序能够执行一些复杂数据处理的工作,通常的情况下,需要将这个任务task分割成多个较小的subtask,然后每个subtask通过hadoop中的job运行完成,然后教案subtask的结果收集起来,完成这个复杂的task。转载 2016-07-21 09:29:38 · 2717 阅读 · 0 评论 -
Hadoop--06--MapReduce编程基础
. WordCount示例及MapReduce程序框架 首先通过一个简单的程序来实际运行一个MapReduce程序,然后通过这个程序我们来哦那个结一下MapReduce编程模型。 下载源程序:/Files/xuqiang/WordCount.rar,将该程序打包成wordcount.jar下面的命令,随便写一个文本文件,这里是WordCountMrtrial,并上传到hdfs上,这里转载 2016-07-20 20:02:20 · 1614 阅读 · 0 评论 -
Hadoop--04--使用java api操作
1. 概述 2. 文件操作 2.1 上传本地文件到hadoop fs 2.2 在hadoop fs中新建文件,并写入 2.3 删除hadoop fs上的文件 2.4 读取文件 3. 目录操作 3.1 在hadoop fs上创建目录 3.2 删除目录 3.3 读取某个目录下的所有文件 4. 参考资料接代码下载 . 概述 hadoop中关于文件操作类基本转载 2016-07-19 08:49:35 · 1243 阅读 · 0 评论 -
Hadoop常用命令(三)
1,hadoop fs –fs [local | ]:声明hadoop使用的文件系统,如果不声明的话,使用当前配置文件配置的,按如下顺序查找:hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-site.xml。使用local代表将本地文件系统作为hadoop的原创 2016-07-18 22:10:49 · 2006 阅读 · 2 评论 -
Git的相关用法
1.克隆远程项目 git clone git clone http://XXX.XXX/sq-group/XXX.git 2.查看远程分支 git branch –r 3. 查看所有的分支 git branch –a 4. 创建分支 git branch name 5. 切换分支 git checkout name git checkout的主要功能就是迁出一个分支的原创 2016-07-07 23:09:41 · 3409 阅读 · 0 评论 -
负载均衡服务器
负载均衡服务器(load-balancing server)是进行负载分配的服务器。通过负载均衡服务器,将服务请求均衡分配到实际执行的服务中,从而保证整个系统的响应速度。 定义 "负载均衡服务器"是本系统的控制服务器,所有用户的请求都首先到此服务器,然后由此服务器根据各个实际处理服务器状态将请求具体分配到某个实际处理服务器中,对外公开的域名与IP地址都是这台服务器。负载均衡控制转载 2016-06-21 20:34:35 · 732 阅读 · 0 评论 -
分布式设计与开发(二)------几种必须了解的分布式算法
分布式设计与开发中有些疑难问题必须借助一些算法才能解决,比如分布式环境一致性问题,感觉以下分布式算法是必须了解的(随着学习深入有待添加): Paxos算法一致性Hash算法 Paxos算法 1)问题描述 分布式中有这么一个疑难问题,客户端向一个分布式集群的服务端发出一系列更新数据的消息,由于分布式集群中的各个服务端节点是互为同步数据的,所以运行完客户端这系列消息指令后各转载 2016-06-21 20:04:45 · 575 阅读 · 0 评论 -
分布式设计与开发(一)------宏观概述
在IDF05(Intel Developer Forum 2005)上,Intel首席执行官Craig Barrett就取消4GHz芯片计划一事,半开玩笑当众单膝下跪致歉,给广大软件开发者一个明显的信号,单纯依靠垂直提升硬件性能来提高系统性能的时代已结束,分布式开发的时代实际上早已悄悄地成为了时代的主流,吵得很热的云计算实际上只是包装在分布式之外的商业概念,很多开发者(包括我)都想加入研究云计算这转载 2016-06-21 17:54:17 · 3373 阅读 · 0 评论 -
ubuntu14.04下Hadoop2.6.0+Hive1.1.1安装
1.Hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据。其在Hadoop的架构体系中承担了一个SQL解析的过程,它提供了对外的入口来获取用户的指令然后对指令进行分析,解析出一个MapReduce程序组成可执行计划,并按照该计划生成对应的MapReduce任务提交给Hadoop集群处理,获取最终的结果。元数据——如表模式原创 2016-07-06 21:57:23 · 3588 阅读 · 0 评论 -
ubuntu14.04下hadoop2.6.0安装
1. 下载ubuntu14.04 i386 地址:http://old-releases.ubuntu.com/releases/14.04.1/ 2. 安装JDK 地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 2.1.解压安装 我们把JDK安装到这个路径原创 2016-07-05 20:16:28 · 1835 阅读 · 0 评论 -
Hive是什么?
Hive 定义 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了转载 2016-07-03 12:10:10 · 899 阅读 · 0 评论 -
分布式算法之取模算法的缺陷
分布式算法之取模算法的缺陷: 假设有8台服务器,运行中,突然down一台,则求余的底数变成7, 后果: key:0%8 = 0, key:0%7 = 0 hits .... key:6%8 = 6, key:6%7 = 6 hits key:9%8 = 1, key:9%7 = 2 miss .... key:55%8 = 7, key:55%7 = 6 miss 一般的,原创 2016-09-04 11:13:13 · 1169 阅读 · 0 评论