自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (1)
  • 收藏
  • 关注

原创 Maxwell 和 canal 工具对比

➢ Maxwell 没有 canal 那种 server+client 模式,只有一个 server 把数据发送到消息队列或 redis。如果需要多个实例,通过指定不同配置文件启动多个进程。➢ Maxwell 有一个亮点功能,就是 canal 只能抓取最新数据,对已存在的历史数据没有办法处理。而 Maxwell 有一个 bootstrap 功能,可以直接引导出完整的历史数据用于初始化,非常好用。➢ Maxwell 不能直接支持 HA,但是它支持断点还原,即错误解决后重启继续上次点儿读取数据。 ➢

2021-04-29 20:46:35 1270

原创 Memcached和Redis区别

多线程+锁(memcached) vs 单线程+多路IO复用(Redis)(与Memcache三点不同: 支持多数据类型,支持持久化,单线程+多路IO复用)

2021-04-22 11:55:37 191

转载 java中,==equals的区别

在Java学习和面试中经常遇到这个问题,虽然想着简单,但还是决定记录下来,毕竟菜嘛…==:==是直接比较的两个对象的堆内存地址,如果相等,则说明这两个引用实际是指向同一个对象地址的。但是我们又常常碰到这样一个问题https://img-blog.youkuaiyun.com/20180920110059853?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2xjc3kwMDA=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/

2021-03-05 22:21:17 162

原创 hive每日一个insert into的小文件问题

数仓项目中,每日更新一些表(比如日活表),会向表中新增一条数据。如果写成insert into xxx, 新写的数据会在hdfs形成一个小文件。每日如此的话,小文件的数量会非常大。为了解决此问题,可以使用union来解决insert overwrite table xxxselect * from xxxunionselect …通过union将新的那条数据和原来老的数据合并,再overwrite,这样就会避免小文件问题。注意:union all 没有此效果。因为hive比较智能,你写un

2021-02-06 22:23:42 1318 2

原创 HIVE lzo压缩模式下 select count(*)时条数不一致

lzo压缩时有一个索引文件。当使用select * from xx 时, inputformat是使用建表时指定的DeprecatedLzoTextInputFormat,他可以识别到索引文件。而使用select count(*) from xx时,使用的inputformat是先使用combinehiveinputformat(防止MR的时候都是小文件),他会把索引文件和数据文件合并,导致之后DeprecatedLzoTextInputFormat识别不到索引文件,然后误认为索引也是一条数据,导致条数

2021-02-04 12:09:38 593

原创 hive中get_json_object的使用

hive中get_json_object是一个用来处理json数据的方法,非常好用!1)数据[{“name”:“大郎”,“sex”:“男”,“age”:“25”},{“name”:“西门庆”,“sex”:“男”,“age”:“47”}]2)取出第一个json对象hive (gmall)>select get_json_object(’[{“name”:“大郎”,“sex”:“男”,“age”:“25”},{“name”:“西门庆”,“sex”:“男”,“age”:“47”}]’,’[0]′)

2021-02-01 09:55:04 782

原创 shell种单引号,双引号,反引号的作用

(1)单引号不取变量值(2)双引号取变量值(3)反引号`,执行引号中命令,并赋值给前面的变量(4)双引号内部嵌套单引号,取出变量值(5)单引号内部嵌套双引号,不取出变量值

2021-02-01 09:01:23 467

原创 INPUTFORMAT和OUTPUTFORMAT是什么

HIVE建表语句中有时会指定inputformat和outputformat,有时又没有。其实即使我们建表时没有指定,在下一层系统也会给我们指定默认的inputformat和outputformat。那这两个究竟是什么呢?drop table if exists ods_log;CREATE EXTERNAL TABLE ods_log (line string)PARTITIONED BY (dt string) – 按照时间创建分区STORED AS – 指定存储方式,读数据采用LzoTex

2021-02-01 08:29:58 990

原创 启动hive前要不要启动metastore和hiveserver2

hiveserver2:如果要通过jdbc连接hive,则需要启动hiveserver2。常见jdbc客户端:beelinemetastore:提供一个数据接口,获取hive元数据。获取获取元数据的方式:1直连mysql获取2连接metastore,通过metastore连接mysql...

2021-01-26 15:08:18 1257 2

原创 关系建模与维度建模

关系模型就是遵从三范式,以往的数据库建模基本都是关系模型。维度建模主要应用于OLAP系统中,通常以某一个事实表为中心进行表的组织,主要面向业务,特征是可能存在数据的冗余,但是能方便的得到数据。关系模型虽然冗余少,但是在大规模数据,跨表分析统计查询过程中,会造成多表关联,这会大大降低执行效率。所以通常我们采用维度模型建模,把相关各种表整理成两种:事实表和维度表两种。总结来说三个优点:1便于理解 2查询方便 3便于分析...

2021-01-25 12:42:44 401

原创 OLTP与OLAP

当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。二者的主要区别对比如下表所示。对比属性 | OLTP | OLAP读特性 每次查询只返回少量记录 对大量记录进行汇总写特性

2021-01-25 12:14:36 139

原创 范式理论讲个大概

关系建模:比尔一蒙维度建模:kimbo大数据背景下更多采用的维度建模。范式理论是为了关系模型打基础,和维度建模并没有什么关系,理解为主。采用范式,主要有点是降低数据的冗余性。相同的字段和相同的值出现在多个表多个字段,这就是数据的冗余。缺点就是想要获取数据时,需要通过join进行拼接,影响性能。目前业界范式又:第一范式,第二范式,第三范式,巴斯科德范式,第四,第五,一般常用的就是第一二三范式。遵循的级别越高,冗余的就越少。...

2021-01-25 10:52:53 449

原创 Flume内存优化

1)问题描述:如果启动消费Flume抛出如下异常ERROR hdfs.HDFSEventSink: process failedjava.lang.OutOfMemoryError: GC overhead limit exceeded2)解决方案步骤:(1)在hadoop102服务器的/opt/module/flume/conf/flume-env.sh文件中增加如下配置export JAVA_OPTS="-Xms100m -Xmx2000m -Dcom.sun.management.jmxre

2021-01-20 16:17:59 315

原创 如何确定kafka节点数量,topic数量,topic的分区数量

①kafka节点数量Kafka 机器数量(经验公式)=2*(峰值生产速度副本数/100)+1峰值速度:比如flume读取日志文件往kafka里写数据的峰值速度,得问公司上游业务团队获得副本数:topic的副本数,一般是2个(3个)先拿到峰值生产速度,再根据设定的副本数,就能预估出需要部署 Kafka 的数量。比如我们的峰值生产速度是 50M/s。副本数为 2。Kafka 机器数量=2(50*2/100)+ 1=3 台②topic数量确定1个topic就是一类数据,有多少种数据就建多少个top

2021-01-15 15:00:10 8292

原创 kafka压力测试

1)Kafka 压测用 Kafka 官方自带的脚本,对 Kafka 进行压测。Kafka 压测时,可以查看到哪个地方出现了瓶颈(CPU,内存,网络 IO)。一般都是网络 IO 达到瓶颈。kafka-consumer-perf-test.shkafka-producer-perf-test.sh2)Kafka Producer 压力测试(1)在/opt/module/kafka/bin 目录下面有这两个文件。我们来测试一下[atguigu@hadoop102 kafka]$ bin/kafka-

2021-01-15 14:44:38 235

原创 kafka常用命令

1)查看 Kafka Topic 列表[atguigu@hadoop102 kafka]$ bin/kafka-topics.sh --zookeeperhadoop102:2181/kafka --list2)创建 Kafka Topic进入到/opt/module/kafka/目录下创建日志主题[atguigu@hadoop102 kafka]$ bin/kafka-topics.sh --zookeeperhadoop102:2181,hadoop103:2181,hadoop104:21

2021-01-15 14:22:59 234

原创 hadoop读写速度测试

为了今后对集群读写文件所需时间有所估算,可以对集群读写性能进行测试1) 测试HDFS写性能测试内容:向HDFS集群写10个128M的文件[atguigu@hadoop102 mapreduce]$ hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.2-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB

2021-01-13 13:25:44 1057

实时数据仓库大数据架构图

实时数据仓库大数据架构图

2021-06-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除