
大数据
大神,快来碗里
专注于Java相关技术
展开
-
Hive基本命令
启动hive服务端程序: hive --service metastore 启动hive客户端程序: hive --service hiveserver2 (java客户端可以调用此hive服务) 进入命令模式: ./hive 查看库 show databases; 创建库 create database hive; 创建表 use hive; create table bus_rece...原创 2019-01-29 09:18:21 · 14642 阅读 · 0 评论 -
Springboot2(37)集成hive
源码地址 springboot2教程系列 Hive基本命令 添加依赖 <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>${hive.version}</ver...原创 2019-01-29 09:32:59 · 28797 阅读 · 4 评论 -
HBase系统架构
1 HBase整体架构 整体架构图: 1.1 HMaster HMaster没有单点问题,HBase中可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有一个Master运行,HMaster在功能上主要负责Table和Region的管理工作: 管理用户对Table的增、删、改、查操作(admin操作); 管理HRegionServer的负载均衡,调整...转载 2019-01-29 14:33:56 · 13907 阅读 · 0 评论 -
HBase建模、使用以及优化
分享的目的: 合理地使用HBase,发挥HBase本身所不具有的功能,提高HBase的执行效率 一、HBase建表的基本准则 1. family数量的控制: 不能太多,建议不要超过2个,一般的情况 下,一张表,一个family最好, 可以避免在刷缓存的时候一个Region下多个Store的相互影响,减少不必要的IO操作; 2. rowKey的设计: rowKey写入不能连续,尽量散开,避免写入r...转载 2019-01-29 14:53:52 · 14215 阅读 · 0 评论 -
大数据(1) 大规模集群下Hadoop NameNode如何承载每秒上千次的高并发访问
一、写在前面 上篇文章我们已经初步给大家解释了Hadoop HDFS的整体架构原理,相信大家都有了一定的认识和了解。 如果没看过上篇文章的同学可以看一下:《兄弟,用大白话告诉你小白都能听懂的Hadoop架构原理》这篇文章。 本文我们来看看,如果大量客户端对NameNode发起高并发(比如每秒上千次)访问来修改元数据,此时NameNode该如何抗住? 二、问题源起 我们先来分析一下,高并发请求Nam...原创 2019-05-03 20:10:10 · 20157 阅读 · 0 评论 -
大数据(2) 懂的Hadoop架构原理
一、前奏 Hadoop是目前大数据领域最主流的一套技术体系,包含了多种技术。 包括HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统),等等。 有些朋友可能听说过Hadoop,但是却不太清楚他到底是个什么东西,这篇文章就用大白话给各位阐述一下。 假如你现在公司里的数据都是放在MySQL里的,那么就全部放在一台数据库服务器上,我们就假设这台服务器的磁盘空间...原创 2019-05-03 20:12:06 · 20081 阅读 · 0 评论 -
大数据(3) Hadoop如何将TB级大文件的上传性能优化上百倍
一、写在前面 上一篇文章,我们聊了一下Hadoop中的NameNode里的edits log写机制。 主要分析了edits log写入磁盘和网络的时候,是如何通过分段加锁以及双缓冲的机制,大幅度提升了多线程并发写edits log的吞吐量,从而支持高并发的访问。 如果没看那篇文章的同学,可以回看一下:大规模集群下Hadoop NameNode如何承载每秒上千次的高并发访问。 这篇文章,我们来看看,...原创 2019-05-03 20:14:52 · 20274 阅读 · 1 评论