
大数据学习之路
大数据学习方面走过的一些坑
清风笑丶
www.hphblog.cn阅读体验更佳
展开
-
HBase的Shell命令和JavaAPI
HBase的shell操作和JavaAPI的使用:Shell表操作创建表 1 create 'student','info' #表名 列族 插入表 12345 put 'student','1001','info:sex','male'put 'student','...原创 2018-12-31 12:58:55 · 176 阅读 · 0 评论 -
MapReduce高级编程2
MapReduce Top N 、二次排序,MapJoin: TOP N对于一组输入List(key,value),我们要创建一个Top N 列表,这是一种过滤模式,查看输入数据特定子集,观察用户的行为。解决方案key是唯一键,需要对输入进行额外的聚集处理,先把输入分区成小块,然后把每个小块发送到一个映射器中。每个映射器会创建一个本地...原创 2018-12-28 09:16:11 · 395 阅读 · 0 评论 -
MapReduce高级编程
MapReduce 计数器、最值: 计数器数据集在进行MapReduce运算过程中,许多时候,用户希望了解待分析的数据的运行的运行情况。Hadoop内置的计数器功能收集作业的主要统计信息,可以帮助用户理解程序的运行情况,辅助用户诊断故障。1234567891011121314151617181920212223242526272829...原创 2018-12-28 12:00:38 · 492 阅读 · 0 评论 -
MapReduce的工作机制
《Hadoop权威指南》中的MapReduce工作机制和Shuffle:框架Hadoop2.x引入了一种新的执行机制MapRedcue 2。这种新的机制建议在Yarn的系统上,目前用于执行的框架可以通过mapreduce.framework.name属性进行设置,值“local“表示本地作业运行器,“classic”值是经典的MapRe...原创 2018-12-24 15:39:36 · 550 阅读 · 0 评论 -
Hadoop的RPC工作原理
RPC远程过程调用:Hadoop的远程过程调用(Remote Procedure Call,RPC)是Hadoop中核心通信机制,RPC主要通过所有Hadoop的组件元数据交换,如MapReduce、Hadoop分布式文件系统(HDFS)和Hadoop的数据库(Hbase)。RPC是一种通过网络从远程计算机程序上请求服务,而不需要...原创 2018-12-20 21:06:40 · 5917 阅读 · 0 评论 -
Hadoop的I/O操作
Hadoop的IO:Hadoop自带的一条原子操作作用域数据I/O操作,其中有一些技术比Hadoop更常用,如数据完整性保持和压缩在处理好几个TB级别的数据集时值得关注.数据完整性Hadoop用户不希望在存储和处理数据时丢失或损坏任何数据,但是当系统中需要处理数据量达到Hadoop处理极限时,数据被损坏不可避免。检验数据是否损坏常见...原创 2018-12-20 18:02:54 · 6082 阅读 · 0 评论 -
Hadoop简介与分布式安装
Hadoop的基本概念和分布式安装:Hadoop简介Hadoop 是Apache Lucene创始人道格·卡丁(Doug Cutting)创建的,Lucene是一个应用广泛的文本搜索库,Hadoop起源于开源网络搜索引擎Apache Nutch,后者是Lucene项目的一部分. Apache Hadoop项目的目标是可靠的、可拓展的分...原创 2018-12-17 04:57:06 · 247 阅读 · 0 评论 -
Hadoop完全分布式安装
Hadoop简介Hadoop 是Apache Lucene创始人道格·卡丁(Doug Cutting)创建的,Lucene是一个应用广泛的文本搜索库,Hadoop起源于开源网络搜索引擎Apache Nutch,后者是Lucene项目的一部分.Apache Hadoop项目的目标是可靠的、可拓展的分布式计算开发开源软件。Apache Hadoop平台本质是一个计算存储框架,允许使用简单的编程...原创 2018-12-17 15:47:25 · 168 阅读 · 0 评论