自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Hbase命令操作

5)删除namespace,只能删除空的(没有表)namespace。1)查看所有的namespace。3)查看namespace详情。6)查看表的region 信息。2)创建namespace。4)修改namespace。

2024-03-28 16:46:50 905 1

原创 Redis五大数据类型常用命令

不 同之处是有序集合的每个成员都关联了一个评分(score) ,这个评分(score)被用来按照从 最低分到最高分的方式排序集合中的成员。​ (2)因为元素是有序的, 所以你也可以很快的根据评分(score)或者次序(position)来 获取一个范围的元素。​ (1)set中的元素是无序不重复的,当你需要存储一个列表数据,又不希望出现重复数据时,set是一个很好的选择,并且set提供了判断某个成员是否在一个set集合内的重要接口,​ (2)Redis的Set是string类型的无序集合。

2024-03-28 15:51:22 898

原创 kafka分区、生产经验、数据去重、幂等性分析介绍

​ 开发人员可以根业务需求使数据2前往不同的分区,需要自定义分区器来实现。​ 1. 实现接口Partitioner​ 2.实现3个方法:partition,close,configure​ 4.编写partition方法,返回分区号​ 5.在客户端将此类配置进去。

2024-03-02 21:57:20 1760

原创 数据库和数据仓库的区别

​ 数据库不能存海量数据,查询效率会慢,不能直接作为数据统计分析的数据源,数据太少。​ 需要周期性将业务数据库的数据同步到数据仓库的数据源中,这个同步的过程叫采集。​ Spark中存在shuffle操作的,所谓的shuffle其实就是将数据落盘,​ 数据源 =》 加工数据 =》 统计数据 =》分析数据(排序,取前多少条)​ 数据仓库自己的数据源来自业务数据库的数据,不断汇总业务数据库的数据,​ 对数据源中的数据进行加工处理,为了后面的数据统计分析做准备。

2024-03-01 19:24:00 1667 1

原创 hive on spark 出现的问题 Spark job failed during runtime. Please check stacktrace for the root cause.

引擎使用spark会出现各种问题,可以尝试将引擎换成MR。出现此问题,可能是表之间的连接出现了错误。此时将会报上述的错误。

2024-02-29 19:30:26 1024

原创 MapReduce切片原理

切片则是对输入文件的处理,合理的切片大小则会处理速度。若是300Mb的数据,按照默认的块大小128Mb可以将文件切成3份。若是不合理的切片值,例如切片 1Mb那么一个文件将会切成300份,将会提升效率吗?切的越多yarn也会进行资源调度,如是资源不足的时候部分的MapTask将会在等待。​ 数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其分成片进行存储。数据切片是MapReduce 程序计算输入数据的单位,一个切片会对应启动一个MapTask。数据块是HDFS 存储数据单位。

2023-12-20 21:18:08 177 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除