
大数据
takeuheart
这个作者很懒,什么都没留下…
展开
-
HbaseApi的高级特性
文章目录HbaseApi的高级特性过滤器1.过滤器的层次结构2.比较运算符3.比较器4.比较过滤器5.专用过滤器6.附加过滤器7.FilterList8.自定义过滤器计数器1.单计数器2.多计数器协处理器1.Coprocessor2.协处理器的加载3.Observer4.EndPointHTablePool和HConnectionHbaseApi的高级特性过滤器1.过滤器的层次结构在过滤器...原创 2019-12-24 16:41:38 · 282 阅读 · 0 评论 -
Hbase的API操作
Hbase的API操作HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBASE 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。Hbase中的角色HMaster1.监控 RegionServer2.处理 RegionServer 故障转移3.处理元数据的变更4.处理 region 的分配或转移5.在空闲时间进行数据的负载均衡6.通...原创 2019-12-24 11:37:05 · 409 阅读 · 0 评论 -
Flume
从源码剖析FlumeFlume 是 Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。架构特点Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hb...原创 2019-12-06 20:18:50 · 181 阅读 · 0 评论 -
Hive函数与调优
文章目录Hive函数与调优函数系统内置函数自定义函数1.UDF函数2.UDTF函数调优开启map阶段输出压缩开启reducer阶段的数据压缩文件存储格式测试存储和压缩企业级调优Fetch抓取本地模式表的优化1.小表、大表join2.大表join大表3.MapJoin(小表join大表)4.Group By5.Count(Distinct)去重统计6.笛卡尔积7.行列过滤8.动态分区调整合理设置Ma...原创 2019-11-30 20:45:26 · 415 阅读 · 0 评论 -
Hive的CRUD
Hive的CRUDDDL 数据定义创建数据库1)创建一个数据库,数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。 hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加 if not exists 判断。(标准写法) hive (default)> cr...原创 2019-11-28 19:13:00 · 852 阅读 · 0 评论 -
大数据面试
原文链接:https://gitbook.cn/books/5d0337e1d9e03d26feeee58c/index.html转自:https://blog.youkuaiyun.com/qq_44868502/article/details/103202702 山岭巨人杨尚桑大数据面试看这一篇就够了!分享给大家一篇很好的面试题ConcurrentHashMap 是怎么实现的?答:...转载 2019-11-25 11:24:07 · 421 阅读 · 0 评论 -
Hive安装与客户端命令
Hive安装与客户端命令Hive 基本概念Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。本质是:将 HQL 转化成 MapReduce 程序Hive 安装1.Hive 官网地址 http://hive.apache.org/2.文档查看...原创 2019-11-24 19:42:33 · 1601 阅读 · 0 评论 -
Yarn
Yarn架构优点(1) 支持多种计算框架YARN是通用的资源管理和任务调度平台,只要实现了YARN的接口的计算框架都可以运行在YARN上(2) 资源利用率高多种计算框架可以共用一套集群资源,让资源充分利用起来,提高了利用率。(3) 运维成本低避免一个框架一个集群的模式,YARN降低了集群的运维成本。(4) 数据可共享共享集群模式可以让多种框架共享数据和硬件资源,减少数据移动...原创 2019-11-22 19:59:10 · 368 阅读 · 0 评论 -
Zookeeper
Zookeeper概述特点1)Zookeeper:一个领导者(leader),多个跟随者(follower)组成的集群。2)Leader负责进行投票的发起和决议,更新系统状态3)Follower用于接收客户请求并向客户端返回结果,在选举Leader过程中参与投票4)集群中只要有半数以上节点存活,Zookeeper集群就能正常服务。5)全局数据一致:每个server保存一份相同的数...原创 2019-11-21 19:39:05 · 140 阅读 · 0 评论 -
MapReduce原理
MapReduce原理MapTask运行机制及并行度inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map task都有一个内存缓冲区,存储着map的输出结果,当缓冲区快满...原创 2019-11-18 20:13:07 · 284 阅读 · 0 评论 -
HDFS
HDFSHDFS优缺点* 优点 1)高容错性 数据自动保存多个副本。它通过增加副本的形式,提高容错性。2)适合处理大数据 数据规模:能够处理数据规模达到GB、TB、甚至PB级别的数据; 某一个副本丢失以后,它可以自动恢复。 文件规模:能够处理百万规模以上的文件数量,数量相当之大。 3)可构建在廉价机器上,通过多副本机制,提高可靠性。*缺点1)不适合低延时数据访问,比如毫...原创 2019-11-13 20:16:04 · 201 阅读 · 0 评论