大数据
文章平均质量分 74
大数据的江湖
天道酬勤
天行健,君子以自强不息;
地势坤,君子以厚德载物.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据最难源码 hbase 源码 (五)之 Flush,Split,Comact 核心流程源码
HBase Flush,Split,Comact 三大动作流程源码HBase FlushHBase SplitHBase Comact作流程源码)HBase Flush总是要回顾下前面的,不妨回看上一篇好了,不多说,上干货看图MemStore 不是无限大的,当写入数据达到一定阈值条件的时候,就需要执行 Flush 动作,将数据持久化到磁盘。而负责帮助 MemStore 执行 Flush 到磁盘的组件就是 MemStoreFlusher 组件。MemStore 的默认实现是:D原创 2022-04-05 09:31:34 · 513 阅读 · 0 评论 -
大数据最难源码 hbase 源码 (五)之 Flush,Split,Comact 核心流程源码
做好想做好为什么怎么做想做好好好努力为什么为了将来怎么做一点点努力原创 2022-02-28 18:01:18 · 339 阅读 · 0 评论 -
大数据最难源码 hbase 源码 (四)之HBase DML(插入数据)源码分析
HBase Rowkey 寻址机制1.1. MetaCache 缓存详解MetaCache 是存在于 HBase 客户端中,用来给客户端缓存从 ZooKeeper 或者 RegionServer 获取的 Table 的 region 位置信息的组件。它的存在可以极大的帮助HBase 减小负载。第一个网络来回:客户端发送 请求给 ZK ,获取到 Meta 表的 Region 的位置第二个网络来回:客户端发送 请求给 meta 表的 region 所在的 regionserver ,扫描该 regio原创 2022-01-13 21:52:23 · 1631 阅读 · 0 评论 -
大数据最难源码 hbase 源码 (三)之HBase 创建表 流程源码分析
hbase ddl流程分析Connection 和 Admin,HTable 的理解Procedure 和 ProcedureExecutor 详解DDL 创建表服务端处理,CreateTableProcedureMeta 表初始化 InitMetaProcedureConnection 和 Admin,HTable 的理解一个标准的 HBase 客户端程序的写法,来看具体实现:// 第一步:获取配置HBaseConfuration conf = HBaseConfuration.create();原创 2021-12-27 21:56:53 · 2554 阅读 · 1 评论 -
大数据最难源码 hbase 源码 (一)之存储、模型等
源码之前先了解架构存储引擎表模型架构分析寻址机制存储引擎1,LSM treeHBase 核心介绍:HBase(PowerSet) 是 Google 的 BigTable 的开源实现,底层存储引擎是基于 LSM-Tree 数据结构设计的。写入数据时会先写 WAL 日志,再将数据写到写缓存 MemStore 中,MemStore 的内部实现是一个跳表数据结构,等写缓存达到一定规模后或满足其他触发条件才会 Flush 刷写到磁盘,为了提高从文件中查找数据的效率,将内存的数据先按照一定的规则排序,然后刷写到磁原创 2021-10-06 11:53:44 · 1064 阅读 · 0 评论 -
同步工具datax,好用又方便,上手顶呱呱
datax的上手操作datax的介绍安装开始使用datax的介绍1,DataX 是阿里开源的一个异构数据源离线同步工具,为了解决包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。2,1)设计的目的:2)设计的框架:reader:数据采集writer:数据写入framework:连接3)原理:安装1, 官方地址下载地址:http://datax-opensource.oss-cn-hangzh原创 2021-08-23 23:15:03 · 1607 阅读 · 4 评论 -
流式同步工具Maxwell 全量增量导入最强示例
大家都混得不错你咋样定位目标你咋样回首发现,只有自己混得差劲定位做好技术,不能再辜负目标大数据,好好的技术,不断积累,从内打破,坚持自己相信自己可行原创 2021-06-30 21:37:14 · 2368 阅读 · 8 评论 -
Azkaban的简单语法
azkaban的使用说明简单介绍1 Azkaban介绍1)一个完整的数据分析系统通常都是由大量任务单元组成:Shell脚本程序,Java程序,MapReduce程序、Hive脚本等2)各任务依赖关系,为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;2 常见工作流调度系统1)简单的任务调度:直接使用Linux的Crontab来定义;2)复杂的任务调度:使用现成的开源调度系统,比如Ooize、Azkaban、 Airflow、DolphinScheduler等。3 Azk原创 2021-03-30 22:30:18 · 643 阅读 · 0 评论 -
parquet和orc 一次说清了
背景 随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Pre...转载 2021-01-10 21:33:11 · 936 阅读 · 0 评论 -
DBeaver 导MySQL数据 入Phoenix 就是这么轻松
DBeaver的巧妙使用安装使用操作总结安装1,去官网下载安装 https://dbeaver.io/2,按如图操作,你的服务器IP ,端口3,添加驱动使用操作3,这边连接目标数据表,也就是Phoenix的表!4,接下来就是点点了4.1,选择要导入的表4.2,选择源数据表,也就是要导出的表5,接下来就是操作了5.1数据量大就是按段选择,注意下5.2数据量小就是单个查询6,下一步,等着操作成功总结这些都是临时操作,有批量操作还是Spark SQL或者其他,有好的建议一起原创 2021-01-10 21:16:43 · 307 阅读 · 0 评论 -
Hive 中生成随机唯一标识ID的方法
HIVE中处理的数据往往比较多,在处理数据的时候希望给处理得到的数据一个ID标识,这时候可以用到UUID。 UUID的算法的核心思想是结合机器的网卡、当地时间、一个随即数来生成UUID。从理论上讲,如果一台机器每秒产生10000000个UUID,则可以保证(概率意义上)3240年不重复。UUID 的目的,是让分布式系统中的所有元素,都能有唯一的标识,而不需要透过中央控制端来做标识。如此一来,每个人都可以建立...转载 2021-01-10 19:56:38 · 5274 阅读 · 0 评论 -
sparksql本地跑遇到的大坑
sparkSQL本地运行,加载json文件到线上hive表本地配置线上授权一个cmd运行,搞定本地配置这些都是环境变量的,配置的,注意下线上授权就是写入表文件授权一个cmd运行,搞定这个是外加的,可以自己去下载,和hadoop对应就行;在spark/bin运行一下图的就可以了...原创 2020-12-30 23:29:32 · 297 阅读 · 0 评论 -
生产大数据集群架构图
大数据集群架构图说明可能出现的问题架构图根据自己的数据量1)20核物理CPU 40线程 * 7 = 280线程内存128g * 7台 = 896g (计算任务内存700g,其他安装框架需要内存)128m ----1g内存87g数据 ---- 700g内存2)根据数据规模搭建集群模拟的10台机器说明1)消耗内存的分开;2)kafka 、zk 、flume 传输数据比较紧密的放在一起;3)客户端尽量放在一到两台服务器上,方便外部访问;4)还有就是MySQL,sqoop,azka原创 2020-11-29 23:19:11 · 1153 阅读 · 0 评论 -
大数据之Flink的看了就可入门
Flink介绍介绍原理简单使用初步编程介绍1 什么是FlinkApache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink起源于Stratosphere项目, 2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会, 2014年12月,Flink一跃成为Apache软件基金会的顶级项目。2 Flink 对比 SparkSpark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 Spark掀开了内存计算的先河,但是在其火热原创 2020-09-30 22:45:48 · 629 阅读 · 0 评论 -
flume的操作指南简单上手
这就是flume介绍原理操作1 简单实现步骤:2 实际需求介绍1,Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,方便使用.2,最主要就是实时读取服务器本地磁盘的数据,将数据写入hdfs.3, AgentAgent是一个JVM进程,它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成,Source、Channel、Sink。SourceSource是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、原创 2020-08-29 23:33:36 · 417 阅读 · 0 评论 -
大数据spark core的介绍
sparkcore的操作指南Spark是什么原理运行模式基础编程Spark是什么1.Spark是什么Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。并且 Spark 目前已经成为 Apache 最活跃的开源项目。2.Spark特点2.1 快速与 Hadoop 的 MapReduce 相比, Spark 基于内存的运算是 MapReduce 的 100 倍.基于硬盘的运算也要快 10 倍以上.2.2 易用Spark 支持 Scala, Java, Python, R 和 SQ原创 2020-08-15 23:43:29 · 967 阅读 · 0 评论 -
HBase的介绍,使用
HBase的介绍简单介绍简单运用进阶简单介绍1.1 HBase定义HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。1.2 HBase数据模型逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来看,HBase更像是一个 map。1.3 数据模型1)Name Space命名空间,类似于关系型数据库的DataBase概念,每个命名空间下有多个表。HBase有两个自带的命名空间,分别是“hbase”和“def原创 2020-08-02 21:18:17 · 640 阅读 · 0 评论 -
大数据之数据仓库工具Hive
数据仓库工具Hive可是省事了介绍原理安装介绍1.hive简介Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。2.1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上3.优点:操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手),通用性强;缺点:Hive的HQL表达能力有限;Hive的效率比原创 2020-06-26 16:40:29 · 637 阅读 · 0 评论 -
hadoop集群启动遇到的问题之hadoop1启动,集群别的机器hadoop2,hadoop3没有启动
hadoop群起的问题hadoop1正常启动,但是hadoop2,3都是不正常分析问题解决方法hadoop1正常启动,但是hadoop2,3都是不正常– 自己搭的hadoop群起服务,第一台机器是正常启动,但是第二台就没有datanodes,第三台也么有分析问题– 分析了一下,感觉就是要不ssh免密没做好,– 要不就是群起配置有问题,– 最后就是初始化出现问题;解决方法1,先是进去.ssh文件看了下,没有问题,并且手动测试了ssh相互登录,可以;2,再去看看了关键的群起配置,这五大原创 2020-06-25 11:51:10 · 2982 阅读 · 0 评论 -
hadoop之本地跑的出现Exception in thread main org.apache.hadoop.mapred.FileAlreadyExistsException
报错解决出现报错解决问题出现报错一般本地跑出现的问题Exception in thread “main” org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/E:/bdexer/output5-1 already exi解决问题这就是输出的文件出错导致的,可以删掉即可...原创 2020-06-21 11:29:02 · 1841 阅读 · 2 评论 -
大数据之hadoop的环境变量及客户端测试
HDFS的客户端安装HDFS客户端环境准备测试安装写个demoHDFS客户端环境准备–1.下载好hadoop3.0.0–2配置好环境变量测试安装–cmdwinutils有反应的话,就是可以的写个demo**1用idea创建一个maven项目,添加如下依赖: <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</原创 2020-06-14 23:04:03 · 369 阅读 · 0 评论
分享