
Big Data
文章平均质量分 84
caixingyun
这个作者很懒,什么都没留下…
展开
-
大数据时代的技术hive:hive的数据类型和数据模型
来自:http://www.cnblogs.com/sharpxiajun/archive/2013/06/03/3114560.html在上篇文章里,我列举了一个简单的hive操作实例,创建了一张表test,并且向这张表加载了数据,这些操作和关系数据库操作类似,我们常把hive和关系数据库进行比较,也正是因为hive很多知识点和关系数据库类似。 关系数据库里有表(table),分区,hive里转载 2017-02-22 13:41:54 · 1089 阅读 · 0 评论 -
ZooKeeper系列(四)
一、配置服务配置服务是分布式应用所需要的基本服务之一,它使集群中的机器可以共享配置信息中那些公共的部分。简单地说,ZooKeeper可以作为一个具有高可用性的配置存储器,允许分布式应用的参与者检索和更新配置文件。使用ZooKeeper中的观察机制,可以建立一个活跃的配置服务,使那些感兴趣的客户端能够获得配置信息修改的通知。下面来编写一个这样的服务。我们通过两个假设来简化所需实现的服务(稍加修改就可转载 2017-02-21 11:02:49 · 1142 阅读 · 0 评论 -
ZooKeeper系列(三)
前面虽然配置了集群模式的Zookeeper,但是为了方面学建议在伪分布式模式的Zookeeper学习Zookeeper的shell命令。一、Zookeeper的四字命令Zookeeper支持某些特定的四字命令字母与其的交互。他们大多数是查询命令,用来获取Zookeeper服务的当前状态及相关信息。用户在客户端可以通过telnet或nc向Zookeeper提交相应的命令。Zookeeper常用的四字转载 2017-02-21 11:01:48 · 861 阅读 · 0 评论 -
ZooKeeper系列(二)
Zookeeper的环境配置一、Zookeeper的搭建方式Zookeeper安装方式有三种,单机模式和集群模式以及伪集群模式。1.单机模式:Zookeeper只运行在一台服务器上,适合测试环境;2.伪集群模式:就是在一台物理机上运行多个Zookeeper 实例。3.集群模式:Zookeeper运行于一个集群上,适合生产环境,这个计算机集群被称为一个“集合体”(ensemble)。Zookeepe转载 2017-02-21 10:53:04 · 680 阅读 · 0 评论 -
Zookeeper系列(一)
一、ZooKeeper的背景1.1 认识ZooKeeperZooKeeper---译名为“动物园管理员”。动物园里当然有好多的动物,游客可以根据动物园提供的向导图到不同的场馆观赏各种类型的动物,而不是像走在原始丛林里,心惊胆颤的被动 物所观赏。为了让各种不同的动物呆在它们应该呆的地方,而不是相互串门,或是相互厮杀,就需要动物园管理员按照动物的各种习性加以分类和管理,这样我们才能更加放心安全的观赏动转载 2017-02-21 10:52:14 · 677 阅读 · 0 评论 -
分布式服务框架 Zookeeper -- 管理分布式环境中的数据
来自:http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。本文将从使用者角度详细介绍 Zookeeper 的安装和配置文转载 2017-02-21 10:45:40 · 1020 阅读 · 0 评论 -
zookeeper原理
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。Zookeeper是hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在某些应用中使用,因此需要有一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。Zookee转载 2017-02-21 10:43:48 · 677 阅读 · 0 评论 -
Hue安装配置实践
来自:https://yq.aliyun.com/articles/27876摘要: Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据转载 2017-02-21 10:43:01 · 2047 阅读 · 0 评论 -
【MapReduce】常用计算模型详解
来自:http://blog.youkuaiyun.com/yongjian1092/article/details/46799371前一阵子参加炼数成金的MapReduce培训,培训中的作业例子比较有代表性,用于解释问题再好不过了。有一本国外的有关MR的教材,比较实用,点此下载。一.MapReduce应用场景MR能解决什么问题?一般来说,用的最多的应该是日志分析,海量数据排序处理。最近一段时间公司用MR来解转载 2017-02-17 13:59:29 · 1697 阅读 · 0 评论 -
MapReduce中的常见算法
来自:http://www.thebigdata.cn/Hadoop/13619.html一、MapReduce中有哪些常见算法 (1)经典之王:单词计数 这个是MapReduce的经典案例,经典的不能再经典了! (2)数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去转载 2017-02-17 13:58:29 · 4313 阅读 · 0 评论 -
Flume日志收集
来自:http://www.cnblogs.com/oubo/archive/2012/05/25/2517751.html一、Flume介绍Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。设计目标:(1) 可靠性当节点出现故障时,日志能够被传送到其他节点上而不会转载 2017-02-17 13:55:50 · 795 阅读 · 0 评论 -
Hive安装及使用攻略
Jul 16, 2013Tags:HadoophiveHiveQLsql分区表Comments:21 CommentsHive安装及使用攻略让Hadoop跑在云端系列文章,介绍了如何整合虚拟化和Hadoop,让Hadoop集群跑在VPS虚拟主机上,通过云向用户提供存储和计算的服务。现在硬件越来越便宜,一台非品牌服务器,2颗24核CPU,配48G内存,2T的硬盘,已经降到2万块人民币以下了。这种配置转载 2017-02-17 13:54:22 · 982 阅读 · 0 评论 -
大数据时代的技术hive:hive介绍
来自:http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3114180.html我最近研究了hive的相关技术,有点心得,这里和大家分享下。 首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询转载 2017-02-17 13:52:12 · 606 阅读 · 0 评论 -
Hadoop集群(第9期)_MapReduce初级案例
来自:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去转载 2017-02-14 15:57:04 · 674 阅读 · 0 评论 -
Hadoop学习笔记:MapReduce框架详解
来自:http://blog.jobbole.com/84089/开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习转载 2017-02-14 14:35:52 · 471 阅读 · 0 评论 -
Hadoop YARN架构设计要点
来自:http://www.tuicool.com/articles/6nAZF3jYARN是开源项目Hadoop的一个资源管理系统,最初设计是为了解决Hadoop中MapReduce计算框架中的资源管理问题,但是现在它已经是一个更加通用的资源管理系统,可以把MapReduce计算框架作为一个应用程序运行在YARN系统之上,通过YARN来管理资源。如果你的应用程序也需要借助YARN的资源管理功能,转载 2017-02-14 14:34:30 · 668 阅读 · 0 评论 -
深入理解Yarn的架构及作业调度机制
来自:http://blog.youkuaiyun.com/u010330043/article/details/51223108一、YARN 架构由什么组成?首先我们来看看 YARN 的架构图,如下图所示。 从 YARN 的架构图来看,它主要由ResourceManager、NodeManager、ApplicationMaster和Container等以下几个组件构成。 1、 ResourceManag转载 2017-02-14 14:33:20 · 784 阅读 · 0 评论 -
JAVA API操作HDFS文件系统
来自:http://blog.youkuaiyun.com/kkdelta/article/details/19910657一个通过Java API操作HDFS文件系统的例子,本例子使用的是hadoop0.20的版本,在windows的eclipse下运行的时候,需要将core-site.xml和hdfs-site.xml放在src/bin目录中。[java] view plain copy public c转载 2017-02-14 14:32:10 · 713 阅读 · 0 评论 -
HDFS中JAVA API的使用
来自:http://www.cnblogs.com/liuling/p/2013-6-17-01.htmlHDFS是一个分布式文件系统,既然是文件系统,就可以对其文件进行操作,比如说新建文件、删除文件、读取文件内容等操作。下面记录一下使用JAVA API对HDFS中的文件进行操作的过程。 对分HDFS中的文件操作主要涉及一下几个类: Configuration类:该类的对象封转了客户端或者服务转载 2017-02-14 14:30:16 · 610 阅读 · 0 评论 -
Hadoop核心之HDFS 架构设计
来自:http://blog.youkuaiyun.com/suifeng3051/article/details/48548341概述:HDFS即Hadoop Distributed File System分布式文件系统,它的设计目标是把超大数据集存储到分布在网络中的多台普通商用计算机上,并且能够提供高可靠性和高吞吐量的服务。分布式文件系统要比普通磁盘文件系统复杂,因为它要引入网络编程,分布式文件系统要容忍转载 2017-02-14 14:29:09 · 486 阅读 · 0 评论 -
HDFS 常用文件操作命令
来自:http://blog.youkuaiyun.com/zcf1002797280/article/details/49560961前言HDFS命令基本格式:Hadoop fs -cmd ls 命令hadoop fs -ls /列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R /列出hdfs文件系统所有的目录和文件put 命令hadoop fs -put hdfs fil转载 2017-02-14 14:23:06 · 588 阅读 · 0 评论 -
【Hadoop】HDFS的运行原理
来自:http://www.cnblogs.com/laov/p/3434917.html简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自转载 2017-02-14 14:19:51 · 417 阅读 · 0 评论 -
基于OGG的Oracle与Hadoop集群准实时同步介绍
Oracle里存储的结构化数据导出到Hadoop体系做离线计算是一种常见数据处置手段。近期有场景需要做Oracle到Hadoop体系的实时导入,这里以此案例做以介绍。Oracle作为商业化的数据库解决方案,自发性的获取数据库事务日志等比较困难,故选择官方提供的同步工具OGG(Oracle GoldenGate)来解决。安装与基本配置环境说明软件配置:角色数据存储服务及版本OGG版本IP源服务器Or转载 2017-01-05 14:58:02 · 1264 阅读 · 0 评论 -
mapreduce框架详解
来自:http://www.cnblogs.com/sharpxiajun/p/3151395.html 开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了转载 2016-09-13 16:25:51 · 772 阅读 · 0 评论 -
Hadoop集群搭建
来自:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.htmlHadoop集群(第5期)_Hadoop安装配置 1、集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和M转载 2016-09-13 16:23:07 · 659 阅读 · 0 评论 -
Oracle 大数据集成实施
Oracle 大数据实施架构Oracle为广大客户提供了一个预装的用于测试和学习目的的免费大数据环境。你可以在这个环境中对Oracle大数据一体机(Big Data Appliance)上的可选软件产品,包括Oracle NoSQL数据库企业版,Oracle Big Data Discovery,Oracle Big Data Spatial and Graph and Oracle Big Da原创 2016-08-07 18:54:19 · 3278 阅读 · 0 评论 -
迎战大数据-Oracle篇
来自:http://www.cnblogs.com/wenllsz/archive/2012/11/16/2774205.html了解大数据带来的机遇;透视架构与工具;开源节流,获得竞争优势。聚焦大数据组织为了变得更高效,盈利能力更强,或生产率更高,对信息的渴求似乎永远也无法得到满足。为此它们一直在寻找更强大的数据存储技术,包括超大型数据库(VLDB),以满足他们对信息存储和获取的需求。最近几年数转载 2016-07-08 14:54:34 · 4042 阅读 · 0 评论 -
ORACLE OEM
OracleEnterpriseManager(Oracle企业管理器,简称OEM)是通过一组Oracle程序,为管理分布式环境提供了管理服务。OEM包括了一组DBA工具,一个repository,以及一个图形化显示的控制台。OEM控制台与每一个服务器上的智能化**(IntelligentAgent)相对应。 智能化**能够监控系统的特定事件并且执行任务(作业)就象你在系统本地一样。事件和作业的转载 2016-07-07 13:45:07 · 9425 阅读 · 0 评论