
hadoop
尘光掠影
摒弃洋洋洒洒、长篇大论的博客,用最简洁的代码,讲清楚最复杂的道理~
展开
-
Hadoop:入门以及相关概念详解
一. hadoop是什么Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入。二 . hadoop能干什么hadoop擅长日志分析,facebook...转载 2020-03-27 11:59:45 · 249 阅读 · 0 评论 -
Hadoop大数据生态:SpringBoot整合hive,使用spring的jdbcTemplate操作Hive
简介使用开发工具连接hive客户端,整合SpringBoot与Hive的连接,同时进行数据的增删查改; 创建hive连接,放入druid数据库连接池,自动注入jdbctemplate; 开发前提:已经安装hive客户端,可参考博客:阿里云ECS7安装搭建:hive-2.1.1客户端; 版本配置:hadoop2.7.6,hive1.3.3;实践1. 首先,pom文件加入hive依赖;...原创 2019-05-18 14:39:19 · 21544 阅读 · 7 评论 -
Hadoop大数据生态:Hive自定义设置连接用户名和密码
简介当hive客户端搭建起来之后,应用项目远程连接hive需要设置用户名和密码; 由于hive默认的用户名和密码都是空的,所以需要我们自定义用户名和密码;实践首先,需要先用java开发工具打包一个jar工具类,用于解析用户名和密码,可直接下载这个jar工具包:hiveAuth.jar; 也可以自行通过编写代码进行打jar包,代码如下:package org.apache.hado...原创 2019-05-17 19:17:38 · 8104 阅读 · 7 评论 -
Hadoop大数据生态:hive与hbase整合
简介hive和hbase都是基于hadoop大数据生态而衍生的不同的技术,hbase是一种nosql的key/value数据库,主要用于数据的实时查询,速度比较快,而hive主要使用HQL语言运行MapReduce任务,主要用于统计查询,但速度较慢; 两者属于互补的关系,这两种工具可以同时进行使用,同时操作hadoop底层数据仓库; 环境需求:服务器搭建好hadoop集群、hbase集群以...原创 2019-05-17 17:37:19 · 867 阅读 · 0 评论 -
阿里云ECS7安装搭建:hive-2.1.1客户端
简介hive在hadoop大数据生态里面,主要用于hdfs上的数据的统计查询,与hbase形成互补关系,但查询时间会相对较慢; 搭建hive客户端前提环境:已经安装hadoop集群,可参考上一篇博客:hadoop集群安装搭建; 已经有安装好的mysql数据库(可以是本机也可以是其他服务器),同时下载mysql驱动:mysql-connector-java-6.0.5.jar; 下载hi...原创 2019-05-17 11:56:43 · 1576 阅读 · 4 评论 -
Hadoop之HDFS常用文件操作命令
命令基本格式hadoop fs -cmd < args >ls 列出hdfs文件系统根目录下的目录和文件hadoop fs -ls /dirhadoop fs -ls -R /dir --列出hdfs文件系统所有的目录和文件 puthadoop fs -put <local file> <hdf...转载 2019-05-22 10:57:09 · 777 阅读 · 0 评论 -
springBoot连接hbase,用java操作hbase,实现增删改查功能
简介hbase在hadoop的大数据生态里扮演者不可或缺的作用,特别在数据的实时查询方面; 当hbase的分布式集群在linux服务器搭建起来之后,我们需要使用java客户端去连接调用,实现数据的增删查改; 本篇博客整合了springBoot与hbase的连接与调用,版本配置:hadoop2.7.6;hbase1.3.3;springboot1.5.9实践首先,需要配置本机的host...原创 2019-05-16 17:59:19 · 21326 阅读 · 10 评论 -
阿里云ECS7安装搭建:hbase1.3.3分布式集群
简介Apache HBase是一种Key/Value系统,它运行在HDFS之上。和Hive不一样,Hbase的能够在它的数据库上实时运行,而不是运行MapReduce任务; Hbase适合用来进行大数据的实时查询,支持增删查改,但不支持复杂的统计功能,统计功能一般使用Hive; 安装HBase分布式集群所需的前提环境:Zookeeper集群:可自行搭建一个zookeeper集群,同时也可...原创 2019-05-16 10:47:20 · 716 阅读 · 2 评论 -
spark与hadoop集成详解
我们经常被问到如何让spark集成到hadoop生态系统中,如何让spark在现有的hadoop集群中运行,本文的目的就是来回答上述问题。1,spark主要用于提高而不是取代hadoop栈,从一开始spark就被设计从hdfs中读取存储数据,类似于其他的存储系统,例如Hbase, Amazon S3等,因此,hadoop用户可以通过结合spark来提高hadoop MR, Hbase 及其他大...翻译 2019-05-21 09:48:30 · 3033 阅读 · 0 评论 -
2分钟读懂大数据框架 Hadoop 和 Spark 的异同
简介谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。解决问题的层面不一样首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由...转载 2019-05-21 09:30:12 · 252 阅读 · 0 评论 -
Hbase总结(四)- Hbase与传统数据库的区别
在说HBase之前,我想再唠叨几句。做互联网应用的哥们儿应该都清楚,互联网应用这东西,你没办法预测你的系统什么时候会被多少人访问,你面临的用户到底有多少,说不定今天你的用户还少,明天系统用户就变多了,结果您的系统应付不过来了了,不干了,这岂不是咱哥几个的悲哀,说时髦点就叫“杯具啊”。其实说白了,这些就是事先没有认清楚互联网应用什么才是最重要的。从系统架构的角度来说,互联网应用更加看重系统性能以及...转载 2019-05-15 15:26:39 · 1254 阅读 · 0 评论 -
SpringBoot多数据源配置(hive/mysql)
简介在项目实践中,同一个项目可能需要整合多种数据源,把分散到各个数据库、数据表的数据都查询统计出来; SpringBoot有默认的数据源配置,本篇博客将整合SpringBoot多数据源配置,包括mysql、hive等,通过jdbctemplate或mybatis进行使用; 版本配置(版本可自行选择,这里是博主的测试版本):jdk1.8,springboot1.5.9,hive2.1.1,h...原创 2019-05-20 11:00:42 · 9769 阅读 · 14 评论 -
阿里云ECS7安装搭建:hadoop2.7.6分布式集群
简介hadoop是一个分布式系统基础架构,是大数据生态的一个总称; 核心设计包括:HDFS和MapReduce,HDFS为海量数据提供了存储,而MapReduce则为海量数据提供了计算; 本篇博客则主要描述在阿里云服务器下部署hadoop集群环境准备两台阿里云服务器(实验环境,正式环境建议使用三台或以上部署集群)centos_7,一台为主,另一台为从; 两台服务器分别安装jd...原创 2019-05-07 16:41:27 · 828 阅读 · 0 评论 -
Hadoop名词详解:HDFS、NameNode和DataNode
概览首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默认为三个),以此来实现多机器上的多用户分享文件和存储空间。HDFS特点:① 保存多个副本,...转载 2019-05-06 19:59:51 · 1410 阅读 · 0 评论 -
HBase shell 命令介绍
HBase shell是HBase的一套命令行工具,类似传统数据中的sql概念,可以使用shell命令来查询HBase中数据的详细情况。安装完HBase之后,如果配置了HBase的环境变量,只要在shell中执行hbase shell就可以进入命令行界面,HBase的搭建可以参考我的上一篇文章:hbase分布式集群搭建HBase介绍HBase简介HBase的名字的来源于Hadoop d...转载 2019-05-06 19:40:02 · 370 阅读 · 0 评论 -
Hbase,Hive,Mysql区别与联系
Hive - Mysql Hive mysql 查询语言 HQL SQL 数据存储 HDFS 磁盘上 执行 MR Excutor 延迟 高 低 处...转载 2019-04-18 18:05:40 · 746 阅读 · 0 评论 -
HIVE和HBASE区别
1. 两者分别是什么?Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。Apache HBase是一种Key/V...转载 2019-04-18 17:42:48 · 208 阅读 · 0 评论