
Hadoop
文章平均质量分 80
liuzebin9
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop学习笔记—1.初识hadoop
Hadoop学习笔记—1.初识hadoop一、Hadoop的发展历史二、Hadoop的基础框架三、Hadoop的生态系统原创 2017-04-12 13:38:01 · 1047 阅读 · 0 评论 -
hadoop学习笔记--12.hive DML操作
一、hive DML的基本操作 建议直接参考官方文档: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL 1.加载与插入数据LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=v原创 2017-07-31 21:47:14 · 401 阅读 · 0 评论 -
hadoop学习笔记--11.hive DDL操作
一、hive的数据类型 1.基本类型 整数类型:TINYINT,SMALLINT,INT,BIGINT,以上类型分别对应java中的byte,short,int,long。 小数类型:FLOAT,DOUBLE 布尔类型:BOOLEAN 字符串类型:STRING,VARCHAR,CHAR 2.复杂类型 ARRAY,MAP,STRUCT,TIMESTAMP(DATE)原创 2017-07-31 20:48:21 · 383 阅读 · 0 评论 -
hadoop学习笔记--10.hive安装与配置
一、hive安装 1.环境要求 1、 Java 1.7或以上 2、 Hadoop 2.x (preferred), 1.x (not supported by Hive 2.0.0 onward). 2.安装配置 Hive没有才有hadoop、HBase或者是Zookeeper的主从架构,所以只用在所需要的机器上安装即可。 1. 解压 tar -原创 2017-07-31 20:00:06 · 548 阅读 · 0 评论 -
hadoop学习笔记--9.hive初识
一、hive基本介绍 Hive 是建立在 Hadoop 基础上的数据仓库基础构架,可以将结构化的数据文件映射为一张数据库表。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单原创 2017-07-31 19:42:25 · 549 阅读 · 0 评论 -
hadoop学习笔记--9.HBase基础
一、HBase概述 1.1HBase起源 HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的,分布式的,多版本的,面向列的存储模型,它存储的是松散型数据。HBase是bigtable的开源山寨版本.1.2HBase在Hadoop生态体系中的位置 上图描述了Had原创 2017-07-16 16:40:24 · 426 阅读 · 0 评论 -
hadoop学习笔记--8.MapReduce案例一:简单好友推介实现
一、好友推介概述 好友推荐算法在实际的社交环境中应用较多,比如qq软件中的“你可能认识的好友”或者是Facebook中的好友推介。常见的好友推介算法有六度分割理论,三元闭包论 和最基本的好友推介算法。在这简单介绍最简单的好友推介算法。 假设用户A有好友A1,A2,A3,则A1,A2,A3相互之间都可能通过好友A认识,是潜在的好友关系。如果用户B有好友A1,A2,B1原创 2017-07-13 21:38:23 · 1957 阅读 · 0 评论 -
hadoop学习笔记--7.MapReduce的工作机制
一、hadoop MapReduce架构 MapReduce的整个架构如上图所示,同HDFS一样,Hadoop MapReduce也采用了Master/Slave架构,其主要由以下4大组件构成。 (1):Client client节点上运行MapReduce程序和JobClient,负责提交MapReduce作业和用户显示处理结果。原创 2017-05-30 10:20:35 · 965 阅读 · 0 评论 -
hadoop学习笔记--6.MapReduce的初识
一、MapReduce的概念 1.1 MapReduce的起源 MapReduce是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。通过对大数据计算模型的封装,使得开发者降低开发难度。基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并且以可靠性高,容错率高的方式并行处理大批数据。 1.2 MapRed原创 2017-05-29 17:04:45 · 634 阅读 · 0 评论 -
hadoop学习笔记--5.HDFS的java api接口访问
hadoop学习笔记--5.HDFS的java api接口访问一:几个常用类介绍 (1):configuration类:此类封装了客户端或服务器的配置,通过配置文件来读取类路径实现(一般是core-site.xml)。(2):FileSystem类:一个通用的文件系统api,用该对象的一些方法来对文件进行操作。FileSystem fs = FileSystem.get(c原创 2017-04-14 20:53:29 · 6734 阅读 · 2 评论 -
hadoop学习笔记--4.Ubuntu下Eclipse+hadoop开发配置
hadoop学习笔记--4.Ubuntu下Eclipse+hadoop开发配置一:Ubuntu下Eclipse下载安装下载解压即可。tar -zxvf ---二:Eclipse下hadoop插件下载需要与安装的hadoop版本相匹配.三:配置Eclipse1:hadoop插件放置位置将下载的插件放置Eclipse安装目录下的plugins目录下。原创 2017-04-13 16:07:10 · 399 阅读 · 0 评论 -
Hadoop学习笔记-2.Linux上搭建hadoop伪分布式
Hadoop学习笔记-2.Linux上搭建hadoop伪分布式一;Linux环境准备介绍:在虚拟机下运行两个Linux系统(3个表示笔记本带不动)1:修改主机名vim /etc/sysconfig/network(Ubuntu下 : /etc/hostname )此处本人两个系统分别修改成了hadoop1和hadoop2.2:修改IP vim原创 2017-04-12 14:15:34 · 405 阅读 · 0 评论 -
Hadoop学习笔记--3.Hdfs分布式文件系统
Hadoop学习笔记--3.Hdfs分布式文件系统一:HDFS概述 1.1HDFS来源 HDFS源自于Google 2003年发表的GFS论文。HDFS是GFS的克隆版。 1.2HDFS的优点 (1):高容错性 数据自动保存多个副本(可以设置副本的数量,默认为3个)原创 2017-04-12 19:52:18 · 607 阅读 · 0 评论 -
hadoop学习笔记--13.hive 属性配置、交互式命令行和文件系统交互
一、hive 配置文件常见属性 1.在cli命令行上显示当前的数据库名以及查询的行头信息 在hive-site.xml中添加以下配置<property> <name>hive.cli.print.header</name> <value>true</value> <description>Whether to print the names of the原创 2017-07-31 22:03:57 · 564 阅读 · 0 评论