
Hadoop
文章平均质量分 75
woi123
这个作者很懒,什么都没留下…
展开
-
Hadoop 学习之三
Hadoop一些备受关注的特性与版本演进Append : 支持文件追加功能,如果想使用Hbase,需要这个特性RAID: 在保证数据可靠性的前提下,通过引入校验码减少数据块数目。Symlink: 支持HDFS文件链接。Security : 安全性。NameNode HA: (高可用),尽管存在secondary namenode,并通过数据复制保证数据不会丢失,但当na...原创 2014-05-03 14:10:49 · 249 阅读 · 0 评论 -
Hadoop 之Hive
/*Hive提供了sql语言到map-reduce的映射器Hive不算是完整的数据库,它是基于hadoop的数据查询分析工具,它不具备行数据的DML操作。Hive提供了诸如分区,外部表,集合类型列,正则表达式等高级特性。*/NoSQL,NOT Only SQL。并非是表格式的数据机构,甚至它的表结构是不固定的。不仅仅用sql来查询。NewSQL,SQL的逆袭...原创 2014-11-04 16:14:05 · 126 阅读 · 0 评论 -
Hadoop 学习之二
Hadoop 学习系列之二企业记性选型配置选型理念:普通的,廉价的,标准的(容易替换的),工业话大规模生产的。Hadoop 可以自动支持多核CPU,比如选择2个四核CPU,主流主频16-32G内存,更大的内存可以使Linux将常用的数据缓存在内存,减少IO,提高速度。存储集群应该使用大量廉价硬盘,例如主流大容量(2T)普通SATA硬盘,出于成本考虑一般无需使用SC...原创 2014-04-26 10:37:41 · 125 阅读 · 0 评论 -
Hadoop 基础知识
什么是Hadoop?面向大数据处理擅长离线数据分析分布式文件系统+计算框架(HDFS+MapReduce)Hadoop不是数据库,Hbase才是数据库Hadoop是一个快速进化的生态系统Hadoop会使用在哪些行业? 电子商务,移动运营商什么是大数据?大数据是个相对概念,基于目前的软硬件水平,满足不了预期性能的的数据量,就被称为大数据。Had...原创 2014-03-03 22:18:37 · 100 阅读 · 0 评论 -
Hadoop 之Hbase篇
HabseHBase是一个分布式的,面向列的开源数据库。该技术来源于Change et al所撰写的Google论文"Bigtable"Big Table的想法学生表的例子S(S#,sn,sd,sa)(学号,名称,系别,年龄)在Big Table中,可以写成三个列的表,列分别为行键,属性字段(名字sn),value比如学号1, 名称,小明学号1,系别,计...原创 2014-07-18 21:35:02 · 156 阅读 · 0 评论 -
Hadoop 之pig篇
pig可以看做hadoop的客户端软件,可以连接到hadoop集群进行数据分析工作。Pig方便不熟悉java的用户,使用一种较为简便的类似于SQL的面向数据流的语言pig latin迚行数据处理。Pig latin可以迚行排序、过滤、求和、分组、关联等常用操作,还可以自定义函数,这是一种面向数据分析处理的轻量级脚本语言。Pig可以看做是pig latin到map-reduce的映射器...2014-05-25 13:17:05 · 224 阅读 · 0 评论 -
Hadoop YARN框架
第一代Map-Reduce程序的流程设计及思路1.首先用户程序 (JobClient) 提交了一个 job,job 的信息会发送到 Job Tracker 中,Job Tracker 是 Map-reduce 框架的中心,他需要与集群中的机器定时通信 (heartbeat), 需要管理哪些程序应该跑在哪些机器上,需要管理所有 job 失败、重启等操作。2.TaskTracker 是...原创 2014-05-15 17:48:41 · 134 阅读 · 0 评论 -
Hadoop Map-Reduce编程
/*MAP REDUCE 的计算框架INPUT -> MAP-> COMBINER -> REDUCER -> OUTPUT计算的每个步骤皆以KEY,VALUE键值对作为输入,输出参数。参数的类型为HADOOP封装的类型,加快数据的网络传输。在计算之前,先对数据进行分片,通常情况下,一个分片对应一个64M的数据块,每个分片对应一个TASK.通...原创 2014-05-13 10:46:03 · 93 阅读 · 0 评论 -
Hadoop HDFS API编程
HDFS API编程修改hadoop-env.shexport HADOOP_CLASSPATH=/home/anker/hadoop-1.1.2/myclass设置环境变量修改.bash_profile,当用户一登陆,就会执行此文件PATH=$PATH:$HOME/bin:/usr/jdk1.7.0_51/binJAVA_HOME=/usr/jdk1.7.0_...原创 2014-05-13 10:42:07 · 219 阅读 · 0 评论 -
Hadoop权威指南摘抄(初识Hadoop)
初识Hadoop古代,人们用牛来拉重物,当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样,我们也不需要尝试开发超级计算机,而应该结合使用更多计算机。--格蕾斯.霍珀数据的存储与分析大数据时代,磁盘存储容量快速增加的同时,其访问速度--磁盘数据读取速度缺未能与时俱进。1990年,一个1370MB的磁盘,传输速度为4.4MB/S,因此读取整个磁盘需要5...原创 2014-05-05 15:38:35 · 134 阅读 · 0 评论 -
Hadoop 之 Mahout
Mahout提供了常用算法的程序库,可以基于分布式做数据挖掘.常见算法回归算法:用于预测(日期交易量预测等等)。比如身高和体重作为x,y坐标,给出一组人的身高体重,形成作为图上的一个个点(学习集),计算出一条直线或者抛物曲线,能够离所有点综合距离最小。那么可以任意给出身高,根据给出的曲线预测出相应的体重。------------------------...2014-11-06 14:50:42 · 181 阅读 · 0 评论