
hadoop
喜讯XiCent
这个作者很懒,什么都没留下…
展开
-
HBase简介
什么是hbaseHBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术廉价的PC Server上搭建起大规模结构化存储集群。HBASE的目标是存储并处理大型的数据,更具体来说是仅需普通的硬件配置,就能够处理极大规模的数据。HBASE是Google Bigtable的开源实现,但是也有很多不同之处。比如:Google Bigtable底层是以GFS作为其文件存储系...原创 2020-03-11 18:18:18 · 277 阅读 · 0 评论 -
数据采集-flume的使用
前言 在一个完整的大数据处理系统中, 除了hdfs+mapreduce(或spark)+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统, 而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示:日志采集框架FlumeFlume介绍概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系...原创 2020-03-02 19:01:14 · 1386 阅读 · 0 评论 -
Hive实例-解析百万json以及python脚本的使用
实例 使用UDF解析一百万条json并按字段插入表中1. 编写UDFpublic class MovieJsonParser extends UDF { public String evaluate(String json) throws IOException { ObjectMapper objectMapper = new ObjectMapper...原创 2020-02-10 19:49:34 · 1172 阅读 · 0 评论 -
Hive数据仓库你了解了吗
在工作中我们经常使用的数据库,数据库一般存放的我们系统中常用的数据,一般为百万级别。如果数据量庞大,达到千万级、亿级又需要对他们进行关联运算,该怎么办呢?前面我们已经介绍了HDFS和MapReduce了,它俩结合起来能够进行各种运算,可是MapReduce的学习成本太高了,如果有一种工具可以直接使用sql将hdfs中的数据查出来,并自动编写mapreduce进行运算,这就需要使用到我们的hive...原创 2019-10-28 13:23:06 · 980 阅读 · 0 评论 -
使用docker搭建hadoop集群
Hello小伙伴们,上一篇我们讲了怎么使用虚拟机搭建hadoop集群。由于这种方式搭建起来,虚拟机较大,如果是从0开始搭建的话,那是十分缓慢。下面就给大家伙讲讲怎么使用docker搭建hadoop集群。docker简介百度百科上这么解释:Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布到任何流行的 Linux或Windows ...原创 2019-08-28 10:36:27 · 1377 阅读 · 0 评论 -
MapReduce案例-好友推荐
用过各种社交平台(如QQ、微博、朋友网等等)的小伙伴应该都知道有一个叫 "可能认识" 或者 "好友推荐" 的功能(如下图)。它的算法主要是根据你们之间的共同好友数进行推荐,当然也有其他如爱好、特长等等。共同好友的数量越多,表明你们可能认识,系统便会自动推荐。今天我将向大家介绍如何使用MapReduce计算共同好友算法 假设有以下好友列表,A的好友有B,C,D,F,E,O; ...原创 2019-10-09 18:58:48 · 1643 阅读 · 0 评论