- 博客(66)
- 资源 (21)
- 收藏
- 关注
原创 Kafka Tool(Offset Explorer)在windows下配置访问kerberos认证Kafka
Offset Explorer(以前称为Kafka Tool)是一个用于管理和使用Apache Kafka®集群的图形用户界面(GUI)应用程序。它提供了一个直观的用户界面,允许用户快速查看Kafka集群中的对象以及集群主题中存储的消息。它包含面向开发人员和管理员的功能。集群管理:用户能够轻松地连接、监控和管理多个Kafka集群。主题浏览:直观地浏览所有主题,包括其分区、偏移量、消费者组等详细信息。消息查看:能够查看和搜索特定主题中的消息,帮助用户理解数据流动和调试问题。消费者组管理。
2024-10-24 09:58:59
1494
2
原创 Macbook Pro升级macOS 10.15及以上的全过程
由于现在更多软件安装所需系统要求10.15及以上,导致很多app应用不能使用,如edge mac的操作系统要求。本人2015款的Macbook Pro操作系统是macOS Mojave10.14.6,而现在升级系统默认是最新版本,即macOS Monterey12.7.4,但又不想升级太高版本,只想安装指定版本的系统下面来讲解下在2015 Macbook Pro升级macOS 10.15以上的步骤,其他版本的macbook升级系统按照此步骤依然奏效。
2024-07-30 13:32:08
7104
原创 使用MIT Kerberos Ticket Manager在windows下浏览器访问hadoop页面
kerberos是一种计算机网络认证协议,他能够为网络中通信的双方提供严格的身份验证服务,确保通信双方身份的真实性和安全性。hadoop集群中会常用到kerberos认证,在对hadoop集群施加安全认证过程中,往往会有需要开启对应服务组件Web UI认证的需求。在启用认证后,如果直接使用浏览器打开Web UI页面,都会提示需要进行认证。下面来讲解下在windows下浏览器访问webUI的步骤。
2023-08-08 10:10:22
1358
原创 数据仓库系列篇之实现架构
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录前言前言前言前言
2022-02-11 10:48:00
306
原创 数据仓库系列篇之管理规范
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录前言前言
2022-02-11 10:47:40
798
原创 数据仓库系列篇之分层思想
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录前言前言
2022-02-11 10:46:42
314
原创 数据仓库系列篇之基本概述
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录前言什么是数据仓库数据仓库与数据库的区别为什么要建立数据仓库前言什么是数据仓库数据仓库,是由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出的。数据仓库(Data Warehouse,可简写为DW或DWH),数据仓库是决策支持系统(Decision Support)和联机分析(OLAP)应用数据源的结构化数据环境。数据仓库研究和解决从
2022-02-11 10:44:36
681
原创 Spark Master\Worker、Driver\Executor、Job\Stage\Task等概念与关系
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录前言前言https://blog.youkuaiyun.com/hongmofang10/article/details/84587262https://blog.youkuaiyun.com/mys_35088/article/details/80864092?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefau
2021-08-17 17:15:26
1802
原创 HDFS Block块大小限定依据及原则
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录前言前言
2021-08-17 11:18:11
10454
原创 Spark on Yarn用执行流程图解(包含stage流程)
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录前言前言
2021-08-11 16:44:25
6497
原创 Spark RDD等中cache()和persist()区别及持久化级别、策略选择
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录前言前言
2021-08-02 16:39:03
729
原创 Spark DataFrame中insertInto()与saveAsTable()区别及动态分区插入hive表使用设置
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录前言insertInto()saveAsTable()动态分区参数设置动态分区代码实现前言在spark应用开发中,会经常需要将数据清洗后的结果,插入HIVE表中。而针对数据落表,官方提供了几种插入方式,具体有insertInto,saveAsTable,调用spark sql。下面我们一一讲解他们的区别。insertInto()保存DataFra
2021-04-28 10:18:30
12484
5
原创 Spark DataFrame中na.drop()、drop()、filter(col.isNotNull())、filter(col.isNull())区别
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录前言前言awk是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件,或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk有很多内建的功能,比如数组、函数等,这是它和C语言的相同之处,灵活性
2021-04-13 10:24:51
5179
原创 Hive表小文件治理方案
@Date : 2020-04-23@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058Hive小文件治理方案方案1方案2方案1方案2
2020-04-23 17:10:15
1721
2
原创 拉链表的实现原理与查询方式
@Date : 2020-03-31@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058这里写自定义目录标题原理区别原理区别
2020-03-31 19:39:59
5579
1
原创 Spark算子分类详解
@Date : 2019-07-12@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058[TOC]0 算子常见分类从大方向来说,Spark算子大致可以分为以下两类:Transformation变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操...
2019-07-12 19:33:41
607
原创 Spark-streaming kafka数据接收两种方式
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录1 Receiver-based Approach2 Direct Approach (No Receivers)1 Receiver-based Approachimport org.apache.spark.streaming.kafka._ ...
2018-10-14 21:55:41
401
转载 Spark的join实现的3种方式(与Hive中的join对比)
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录1 Spark的join与Hive的join对比1.1 数据准备1.2 Hive的join、left outer join、right outer join1.3 Spark的join、leftOuterJoin、rightOuterJoin2 Spar...
2018-10-14 21:54:51
2470
原创 Spark算子groupbykey与reducebykey区别
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录0 算子reducebykey1 算子groupbykey0 算子reducebykeyreduceByKey,相较于普通的shuffle操作(比如groupByKey),它的一个特点,就是说,会进行map端的本地聚合。对map端给下个stage每...
2018-10-14 21:53:42
723
原创 Spark的shuffle过程详解
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录0 hadoop的shuffle与spark的shuffle的简单比较1 spark的shuffle1.1 shuffle write1.1.1 第一种方法1.1.2 第二种方法:FileConsolidation方法1.2 shuffle reade1...
2018-10-14 21:49:27
986
原创 Spark Streaming与Kafka数据一致性
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058[TOC]当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性,你需要满足以下几个先决条件:输入的数据来自可靠的数据源和可靠的接收器;应用程序的metadata被app...
2018-10-14 21:37:04
1394
原创 Spark原理框架和作业执行流程
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录0 Hadoop与Spark的对比关系1 Spark原理框架1.1 框架1.2 相关术语解释1.3 RDD1.3.1 窄依赖与宽依赖1.3.2 DAG(有向无环图)与DAGScheduler(有向无环图调度器)1.3.3 Transformation函数...
2018-10-14 21:36:07
960
原创 Hash函数及其冲突解决
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录常用的hash函数直接取余法乘法取整法平方取中法直接寻址法数字分析法折叠法随机数法处理冲突的方法开放定址法线性探查法平方探查法伪随机序列法双哈希函数法(再散列法)链地址法(拉链法)建立一个公共溢出区常用的hash函数直接取余法取关键字被某个不大于散...
2018-10-07 11:09:15
451
原创 Hbase读写数据过程详解(hbase0.96版本之前与hbase0.96版本之后对比)
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录HBase架构图-ROOT-和.META.结构-ROOT-.META.两表关系(hbase0.96版本之前,之后删除了-ROOT-表)写数据过程读数据过程HBase各个模块功能HBase架构图-ROOT-和.META.结构从存储结构和操...
2018-10-07 11:05:34
1648
原创 Drop_Delete_Truncate区别(Hive SQL与MySQL对比)
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录不同方面对比deletedroptruncat适用场景Hive中的操作(drop、truncat)不同方面对比DML:data maintain LanguageDLL:data define language操作操作类型功能表...
2018-10-07 11:04:53
2132
原创 Hbase热点问题
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录Hbase结构及rowkeyHbase结构行健RowKey热点/数据倾斜问题数据倾斜的解决方法rowkey设计原则预分区splitkeys选取Column Family列族的设计数量不宜过多(建议不设置多个)一对多设计和宽表Hbase结构及rowkey...
2018-10-07 11:04:07
1759
1
原创 Hbase与Hive数据同步
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录同步过程同步过程在Hbase中创建一张表create ‘user_sysc’, {NAME => ‘info’};在hive中运行如下,从而创建一个外部表user_sysc:# 在hive中创建一个外表CREATE EXTERNAL ...
2018-10-07 11:03:20
3675
原创 ZooKeeper自身数据一致性
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录0 前言1 ZK数据一致性1.1 ZK选举1.2 ZK原子广播机制(ZAB协议)1.2.1 广播模式1.2.2 恢复模式1.2.3 Paxos与Zab一致性对比1.3 ZK数据同步机制1.3.1 同步准备1.3.2 同步初始化1.3.3 数据同步场景ZK...
2018-10-07 11:02:07
3222
1
原创 ZooKeeper在Kafka中的作用
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录Broker注册Topic注册生产者负载均衡消费者负载均衡消费分区与消费者的关系消息消费进度Offset记录消费者注册Broker注册Broker是分布式部署并且相互之间相互独立,但是需要有一个注册系统能够将整个集群中的Broker管理起来,此时就使...
2018-10-07 11:01:24
697
原创 ZooKeeper故障处理
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录Zookeeper一般会出现以下两种故障Zookeeper故障监控Zookeeper故障处理Zookeeper服务搭建Zookeeper一般会出现以下两种故障Zookeeper进程挂掉;Zookeeper进程还在,但不提供服务;(提示:This ...
2018-10-07 11:00:39
906
原创 不同Hive SQL下转换成MapReduce的情况
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058[TOC]Hive概念Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。Ma...
2018-10-07 10:58:54
2499
原创 从kafka中自定义处开始获取数据
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录从开头处获取数据从当前最新获取数据从上次断开处获取数据从指定offset处获取数据从指定时刻获取数据三种情况的消费者不同使用方式下,消费者提交offset的情况进行了归总和说明:从开头处获取数据配置设置设置auto.offset.reset...
2018-10-06 22:10:54
1225
原创 Flume、Kafka、Hbase、Hive适用场景
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录Flume、Kafka适用场景Hbase适用场景Hive适用场景Flume、Kafka适用场景Kafka、Flume都可以实现数据的传输,但它们的侧重点不同。Kafka追求的是高吞吐量、高负载(topic下可以有多个partition)Flu...
2018-10-06 22:10:11
1703
原创 Kafka中多个partition怎么保证跨区消费是有序的
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录官方说明解决方法官方说明这个问题严格来说是肯定有的,kafka只能保证分区内的有序性。下面是kafka作者Jay Kreps的blog中介绍kafka设计思想的一段话:Each partition is a totally ordered l...
2018-10-06 22:08:57
12427
3
原创 Kafka数据一致性
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录数据存储Topic逻辑结构多Parition的优点/缺点Partition存储结构根据offset查找msg的过程Partition recovery过程数据的同步数据流数据可靠性保证数据一致性保证HDFS数据组织数据存储Topic逻辑结构Top...
2018-10-06 22:05:40
725
原创 Flume到Kafka且均分到多个partition
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录说明情况解决方法说明情况Flume向kafka发布数据时,发现kafka接收到的数据总是在一个partition中,而我们希望发布来的数据在所有的partition平均分布。应该怎么做呢?解决方法Flume的官方文档是这么说的:Kafka S...
2018-10-06 22:03:09
919
原创 Flume怎么保证数据传输的完整性
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录Flume的事物机制Flume的At-least-once提交方式Flume的批处理机制channel配置说明Flume的事物机制Flume使用两个独立的事务分别负责从soucrce到channel,以及从channel到sink的事件传递。比...
2018-10-06 21:59:25
7182
1
原创 MapReduce的数据倾斜及其优化方式
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录MapReduce的数据倾斜和解决方式数据倾斜解决方法MapReduce的优化方式MapReduce的数据倾斜和解决方式数据倾斜根据MapReduce的执行流程以发现,在map端是不会产生数据倾斜的,因为它会根据分片规则将数据进行均匀的切分成一个个...
2018-10-06 21:56:33
780
原创 HDFS存储的优缺点
@Author : Spinach | GHB@Link : http://blog.youkuaiyun.com/bocai8058文章目录HDFS优点HDFS缺点HDFS优点高容错性:数据自动保存多个副本,副本丢失后,自动恢复;适合批处理:移动计算而飞数据。数据位置暴露给计算框架;适合大数据处理:GB,TB,设置PB级数据。百万规模以上文件数量。10K+节点规模。流式文件访问:...
2018-10-06 21:55:39
673
siliconsmart ACE user guide 2016
2019-05-21
zeromq-4.2.1.tar.gz (包括安装包和zeromq\jzmq教程)
2018-07-22
jzmq-master.zip
2018-07-22
Google三大论文中英文
2018-05-08
ARMA模型与ARIMA模型java实现例程
2018-05-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人