- 博客(26)
- 收藏
- 关注
原创 Hive和关系型数据库的区别
1. 查询语言。由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive的特性设计了类 SQL的查询语言 HQL。熟悉SQL 开发的开发者可以很方便的使用Hive 进行开发。2. 数据存储位置。Hive 是建立在 Hadoop之上的,所有 Hive的数据都是存储在 HDFS中的。而数据库则可以将数据保存在块设备或者本地文件系统中。3. 数据格式。
2016-06-26 17:53:16
4433
原创 Hive和HBase的区别
1. 两者分别是什么? Apache Hive是 一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被 转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。 Apache HBase是 一种K
2016-06-26 17:50:40
452
原创 spark入门
Spark快速入门指南 – Spark安装与基础使用 2016-01-15 (updated: 2016-03-07) 6309 29Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 正如其名,最大的特点就是快(Lightning-fast),可比 Hadoop MapReduce 的处理速度快 100 倍。此外,Spark 提供了简
2016-06-25 21:44:55
1763
原创 Scala入门
scala介绍Scala语言来自于Scalable(可伸缩的)既可以写一些小的脚本,又可以写一写复杂的服务器端的程序。Scala是一门纯正的面向对象语言,具有OO特征。Scala是一门函数式语言,可以用函数式思想来编写代码Scala是构建于JVM之上的,与java可以无缝互操作。函数式编程思想函数式编程基本名词介绍纯函数来编写程序。纯函数(Pure Func
2016-06-25 21:41:29
1807
转载 Hadoop序列化
在第一步中, 客户端编写好了代码并打包成jar包,会提交到集群中,也就是Cluster中,通讯方式就是通过RPC来通讯的。(RPC的一个最简单示例) 当集群收到请求后,就会告诉yarn,请求分配资源。当yarn处理之后,会返回一个地址给client(第二步)。客户端去这个地址拷贝jar包(第三步)。 第四步 就是提交任务给RM,主要提交的是任务的描述信息,比如jobID、jar包存在的位置
2016-06-25 19:39:35
384
转载 hadoop HDFS入门
hadoop主要分为三个模块:HDFS、MapReduce、Yarnhadoop具体能干什么:hadoop擅长日志分析海量数据存储 hadoop具有很多节点,节点叫DataNode。 每一个块在节点上存多个副本。海量数据计算 map本地局部处理。 reduce通过网络取得其他节点的统计结果。HDFS的实现思想:hdfs是通过分
2016-06-25 19:38:02
684
转载 hadoop DataNode节点超时
DataNode节点超时时间设置DataNode进程死亡或网络节点故障造成DataNode无法与NameNode通信,NameNode不会立即把该节点判定为死亡,要经过一段时间,这段时间成为超时时长。HDFS默认的超时时长为10分钟+30s。 如果定义超时时长为timeout,则超时时长的计算公式为: timeout = 2 * heartbeat.recheck.interval
2016-06-25 19:36:06
407
转载 Shuffle过程详解
Shuffle过程详解 Shuffle过程是MapReduce的核心,最近看了很多资料,网上说法大体相同,但有些地方有一点点出入,就是各个阶段的执行顺序总个shuffle过程可以看做是从map输出到reduce输入的这个中间过程,在这个中间过程中,经过了一系列的步骤 下面看看官方给出的图 Map端下面是我画的一张图 1.In
2016-06-21 08:31:38
766
转载 Java设计模式——代理模式
代理描述 1.生活中: 代理就是一个人或者一个组织代表其他人去做一件事的现实生活中的。在一些情况下,一个客户不想或者不能够直接引用一个对象,而代理对象可以在客户端和目标对象之间起到中介的作用。2.官方: 代理模式是对象的结构模式。代理模式给某一个对象提供一个代理对象,并由代理对象控制对原对象的引用一、静态代理 类图结构如下 在代理模式中的角色: ●
2016-06-21 08:29:47
263
转载 Java设计模式——工厂模式
工厂模式 一、引言 二、分类 三、简单工厂模式 四、工厂方法模式 五、抽象工厂模式 六、和工厂方法模式区别 七、总结工厂模式 在面向对象编程中, 最通常的方法是一个new操作符产生一个对象实例,new操作符就是用来构造对象实例的。但是在一些情况下, new操作符直接生成对象会带来一些问题。举例来说, 许多类型对象的创造需要一系列的步骤: 你可能需要计算或取得
2016-06-21 08:28:25
215
转载 Java设计模式——单例模式
单例模式 一、特点: 二.分类 (一)、懒汉式单例 (二)、双重检查锁定 (三)、静态(类级)内部类 (四)、饿汉式单例 (五)、单例和枚举 三、饿汉式和懒汉式区别 一、特点: 1、单例类只能有一个实例。 2、单例类必须自己创建自己的唯一实例。 3、单例类必须给所有其他对象提供这一实例。 单例模式确保某个类只有一个实例,而且
2016-06-21 08:26:26
216
原创 hive命令实例
1、把本地文件上传到hdfs: load data local inpath '/home/kun/soft/xxx.data' into table t_order;2、统计表中dept_name个数 select dept_name,count(1) from t group by dept_name;3、新建一个跟b一样的表结构的a表: create t
2016-05-13 17:09:19
546
原创 hadoop hive安装,并使用mysql数据库
1、下载hive-0.12.0并解压到soft下2、配置hive环境变量:kun@hadoop-master:~$ sudo gedit /etc/profileexport HIVE_HOME=/home/kun/soft/hive-0.12.0export PATH=:$HIVE_HOME/binkun@hadoop-master:~$ source /etc/pro
2016-05-13 16:56:18
847
原创 hadoop2.7.1 HA配置
1、下载zookeeper-3.4.5安装包,并解压在soft下2、配置环境变量:kun@hadoop-master:~$ sudo gedit /etc/profileexport ZOOKEEPER_HOME=/home/kun/soft/zookeeper-3.4.5export PATH=:$ZOOKEEPER_HOME/binkun@hadoop-master:~$ sourc
2016-05-13 16:35:34
524
原创 hadoop-2.7.1 MapReduce自定义分组的实现
对数据中电话进行分组,并统计上传、下载、总流量1、待处理的数据为:1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.19
2016-05-13 15:50:36
717
原创 Hadoop完全分布式集群搭建
ubuntu上安装 vmware workstation 12,hadoop完全分布式搭建,wordcount在完全分布式上的运行。
2016-04-28 09:36:03
497
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人