
hadoop
清风石
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据技术中的Parquet格式理解
Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目。 Parquet文件是以二进制方式存储的,所以是不可以直接读取的,文件中包括该文件的数据和元数据,因此Parquet格式文件是自解析的。 通常情况下,在存储Parquet数据的时候会按照Block大小设置行组的大小,由于一般情况下每一个Map...翻译 2019-11-18 19:11:09 · 1030 阅读 · 0 评论 -
java代码使用多种过滤方式查询hbase数据库数据
import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.CompareOperator; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.h...原创 2019-11-13 20:11:43 · 393 阅读 · 0 评论 -
使用java程序操作hbase数据库
import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.CellUtil; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.h...原创 2019-11-13 20:10:02 · 503 阅读 · 0 评论 -
rpc(Remote Procedure Call Protocol):远程过程调用协议解释
首先了解什么叫RPC,为什么要RPC,RPC是指远程过程调用,也就是说两台服务器A,B,一个应用部署在A服务器上,想要调用B服务器上应用提供的函数/方法,由于不在一个内存空间,不能直接调用,需要通过网络来表达调用的语义和传达调用的数据。比如说,一个方法可能是这样定义的: Employee getEmployeeByName(String fullName)那么: 首先,要解决通讯的问题,主要是通...翻译 2019-11-13 20:06:51 · 415 阅读 · 0 评论 -
hadoop官网的wordcount案例(Example: WordCount v1.0)
官网的wordcount:链接: link https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html Input and Output types of a MapReduce job: (input) <k1, v1>...原创 2019-10-19 23:40:27 · 684 阅读 · 0 评论 -
在ubuntu系统中搭建最新版hadoop-3.0.3伪分布式集群,详细讲解每一步流程
在ubuntu系统中搭建hadoop伪分布式集群 第一步:环境准备工作 1、安装ssh服务:sudo apt-get install openssh-server 2、下载好hadoop和jdk软件包,放入指定目录。 安装ssh服务原因:一键启动集群时需要,不在输入密码,最好安装,否则需要重复输入密码 第二步:配置虚拟机环境 1、更改/etc/hostname 机器的名字 sudo vi /e...原创 2019-10-16 20:31:01 · 389 阅读 · 0 评论