
DFS/KDD
文章平均质量分 74
onway417
这个作者很懒,什么都没留下…
展开
-
1、初相见 hadoop
_______了,把hadoop好好研究下!一、为什么要学习hadoop? hadoop是什么? hadoop是一个平台,是一个适合大数据的分布式存储系统NDFS和云计算Mapreduce的平台。 hadoop的优点一:低成本 hadoop本身是运行在普通PC服务器组成的集群中进行大数据的分发及处理工作的,这些服务器集群是可以支持数千个节点的...原创 2015-03-16 14:08:30 · 137 阅读 · 0 评论 -
11、hadoop--数据收集原理
常见的两种数据来源分散的数据源: 机器产生的数据; 用户访问日志; 用户购买日志;传统系统中的数据: 传统关系型数据库:MySQL、 Oracle等; 磁盘阵列; 磁带.常见的Hadoop收集与入库系统:数据收集[color=green] Flume Kafka[/color] Scribe传统数据库与Hadoop同...原创 2015-03-27 18:56:57 · 173 阅读 · 0 评论 -
10、zookeeper
zookeeper是一个针对大型分布式系统的可靠协调系统;提供的功能包括:配置维护、名字服务、分布式同步、组服务等;目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户; zokeeper已经成为Hadoop生态系统中的基础组件。Zookeeper数据模型 每个节点在zookeeper中叫做znode,并且其有一个唯一的路径...原创 2015-03-27 11:34:31 · 93 阅读 · 0 评论 -
9、HBase客户端程序开发
开发接口实现方式:[color=green]Native Java API[/color] 最常规和高效的访问方式;Java API是访问Hbase最快的方式。HBase Shell HBase的命令行工具,最简单的接口,适合HBase管理使用;Thrift Gateway 利用Thrift序列化技术,支持C++, PHP, Python等多种语言。REST ...原创 2015-03-27 10:48:55 · 150 阅读 · 0 评论 -
7、Hbase基本框架
HBase是一个构建在HDFS上的分布式列存储系统; HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储; 从逻辑上讲, HBase将数据按照表、行和列进行存储。[img]http://dl2.iteye.com/upload/attachment/0107/0225/3b9a68cd-11b4-3793-8fbb-7fa8885308...原创 2015-03-26 23:31:41 · 120 阅读 · 0 评论 -
7、Yarn--MapReduce2.0
1、yarn介绍:MapReduce 2.0和YARN区别: YARN是一个资源管理系统,负责资源管理和调度 MapReduce只是运行在YARN上的一个应用程序 如果把YARN看做“android”,则MapReduce只是一个“app”MapReduce 1.0和MapReduce 2.0区别: MapReduce 1.0是一个独立的系统,直接运行在Linux之...原创 2015-03-26 14:09:17 · 200 阅读 · 0 评论 -
6、HA+Federation 详解
now is nullnow is nullnow is nullnow is nullnow is nullnow is nullnow is nullnow is nullnow is nullnow is nullnow is nullnow is nullnow is nullnow is nullnow is nullnow is nullnow is null原创 2015-03-26 14:05:55 · 178 阅读 · 0 评论 -
5、hadoop多节点(HA + Federation)
一、准备[img]http://dl2.iteye.com/upload/attachment/0106/9955/dafeabfe-bf1b-3bb4-877a-c3e56d3df4df.png[/img]1、4台linux系统2、检查联网 3、检查各hosts文件 4、检查ssh 5、检查各节点的jvm配置 6、将配置好的hadoop目录拷贝到其他节点: scp...原创 2015-03-26 13:42:58 · 156 阅读 · 0 评论 -
4、hadoop 多节点部署和测试(HA_HDFS)
HA(High Available), 高可用性群集,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动节点及备用节点。 一、准备[img]http://dl2.iteye.com/upload/attachment/0106/9399/db6586b6-3f37-368a-911d-60cd548a07e0.png[/img]1、4台linux...原创 2015-03-25 09:53:01 · 432 阅读 · 0 评论 -
3、hadoop 单节点 安装配置与测试
在hadoop/home中创建目录 itcast mkdir itcast将hadoopd安装包解压到该目录:[img]http://dl2.iteye.com/upload/attachment/0106/7472/30a8b078-ac2d-3c32-93e5-5421e1f027fc.png[/img]查看java安装路径 whereis java[img...原创 2015-03-24 12:39:51 · 213 阅读 · 0 评论 -
2、hadoop 安装准备
准备工作:hadoop2.3 64/32 win7+vmare+3 centos jdk 7 1、配置centos nat联网方式 设置虚拟机的网络适配器 为nat(Network Address Translation,网络地址转换) NAT方式只要主机Host能够上网,小小设置一下,VMware也...原创 2015-03-17 12:39:15 · 120 阅读 · 0 评论 -
12、数据分析系统Hive/Pig
Hive(Facebook)构建在Hadoop之上的数据仓库;数据计算使用MR,数据存储使用HDFSHive 定义了一种类 SQL 查询语言——HQL;类似SQL, 但不完全相同可认为是一个HQL-->MR的语言翻译器。Hive装在一个节点就可以了,[img]http://dl2.iteye.com/upload/attachment/0107/0560/6bc25300-63...原创 2015-03-28 00:22:44 · 189 阅读 · 0 评论