
Hadoop
SmallSunL
荷锄头而出,日落而夕,闲时码字,有友时饮酒谈天,不知老之将至!
展开
-
Hadoop中的SequenceFile系统之一
SequenceFile是一个由二进制序列化过的key/value的字节流组成的文本存储文件。在Hadoop上利用来解决小文件序列化的问题。 最近的项目之中,需要将服务器内的日志文件压缩成一个二进制的序列化文件,考虑到可以Hadoop中的HDFS子项目,可以实现该方法,同时也可以完成分布式的部署。 一.HDFS系统部署安装 首先需要部署安装HDFS系统。 1、准备两台Linux服原创 2017-12-06 10:28:52 · 381 阅读 · 0 评论 -
Hadoop中的SequenceFile系统之二
上篇文章中完成了Hadoop系统的分布式部署。 本篇文章主要是实现,如何进行小文件的序列化。 由于在服务器中的日志文件并不是完整的在一个根目录下的,因此我在代码中,添加了根目录判断的功能。 可以在部署到Linux服务器后,只要输入一个需要序列化的文件夹,即可自动判断文件夹中的小文件,然后进行序列化。 下面是完整的代码:package com.hadoop.CRUD;import java原创 2017-12-06 11:10:26 · 355 阅读 · 0 评论 -
HBase操作组件:Hive、Phoenix、Lealone
1、Hive是什么 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了...原创 2019-01-08 14:53:00 · 1748 阅读 · 0 评论