
大数据
南山行者
这个作者很懒,什么都没留下…
展开
-
Hadoop核心架构HDFS+MapReduce+Hbase+Hive详解
HDFS的体系架构整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过MR来实现对分布式并行任务处理的程序支持。HDFS采用主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的(在最新的Hadoop2.2版本已经实现多个NameNode的配置-这也是一些大公司通过修改hadoop源代码实现的功能,在最新转载 2015-07-22 14:54:13 · 862 阅读 · 0 评论 -
Spark:一个高效的分布式计算系统
概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭转载 2015-11-15 02:37:55 · 603 阅读 · 0 评论 -
hadoop安装之-hive
一、安装准备1, 下载hive包 http://mirrors.hust.edu.cn/apache/ 2, mysql环境 创建hive使用的数据和,hive用户mysql> create database hive;mysql>grant all on hive.* to hive@'%' identified by 'hive';mysq原创 2015-11-05 11:29:02 · 962 阅读 · 0 评论 -
hadoop安装之-hbase
一、安装准备1, 下载hbase包 http://mirrors.hust.edu.cn/apache/ hbase的版本和hadoop的版本存在对应关系,本例的hadoop是2.6,所以使用hbase-1.0.2-bin.tar.gz,太低可能造成hbase安装或使用错误。二、安装hbase1,解压文件hbase-1.0.2-bin.tar.gz到usr/loc原创 2015-11-10 16:10:27 · 568 阅读 · 0 评论 -
hadoop安装之-sqoop
一、安装准备1, 下载sqoop包 http://mirrors.hust.edu.cn/apache/ sqoop分为1.4和1.9版本,1.9版本为交互版本,即服务器端、客户端,1.4为工具版本,直接运行即可,1.4版本根据hadoop版本来区别,本例使用2.6版本的haddop,所以安装时,选择sqoop-1.4.6.bin__hadoop-2.0.4-alpha.ta原创 2015-11-16 16:53:17 · 1490 阅读 · 0 评论 -
hadoop学习之-hive-数据操作
1、查询数据库hive> show databases;2、查询表hive> show tables;3、创建表CREATE TABLE login( userid BIGINT, ip STRING, time BIGINT) PARTITIONED BY(dt STRING) ROW FORMAT DELIMITED FIELDS原创 2016-03-22 14:57:44 · 655 阅读 · 0 评论 -
hadoop学习之-hive-数据模型
1.Database:相当于关系数据库里的命名空间(namespace),它的作用是将用户和数据库的应用隔离到不同的数据库或模式中,该模型在hive 0.6.0之后的版本支持,hive提供了create database dbname、use dbname以及drop database dbname这样的语句。2.表(table):hive的表逻辑上由存储的数据和描述表格中的数据形式的相关元数转载 2016-03-22 14:31:56 · 2144 阅读 · 0 评论 -
hadoop安装之-hadoop
一、hadoop的三种安装模式1,单机模式 解压源码包后不用更改配置文件,就可以运行,主要用于开发调试MapReduce程序的应用逻辑。2,伪分布式 伪分布式和完全分布式的区别仅仅是物理机的个数,步骤基本一致。3,完全分布式 完全分布式需要在每台机器上安装hadoop以组成分布式存储、计算环境。二、完全分布式安装1,环境: 三台原创 2015-11-09 14:00:46 · 457 阅读 · 0 评论