- 博客(6)
- 收藏
- 关注
原创 Hbase命令操作
5)删除namespace,只能删除空的(没有表)namespace。1)查看所有的namespace。3)查看namespace详情。6)查看表的region 信息。2)创建namespace。4)修改namespace。
2024-03-28 16:46:50
905
1
原创 Redis五大数据类型常用命令
不 同之处是有序集合的每个成员都关联了一个评分(score) ,这个评分(score)被用来按照从 最低分到最高分的方式排序集合中的成员。 (2)因为元素是有序的, 所以你也可以很快的根据评分(score)或者次序(position)来 获取一个范围的元素。 (1)set中的元素是无序不重复的,当你需要存储一个列表数据,又不希望出现重复数据时,set是一个很好的选择,并且set提供了判断某个成员是否在一个set集合内的重要接口, (2)Redis的Set是string类型的无序集合。
2024-03-28 15:51:22
898
原创 kafka分区、生产经验、数据去重、幂等性分析介绍
开发人员可以根业务需求使数据2前往不同的分区,需要自定义分区器来实现。 1. 实现接口Partitioner 2.实现3个方法:partition,close,configure 4.编写partition方法,返回分区号 5.在客户端将此类配置进去。
2024-03-02 21:57:20
1760
原创 数据库和数据仓库的区别
数据库不能存海量数据,查询效率会慢,不能直接作为数据统计分析的数据源,数据太少。 需要周期性将业务数据库的数据同步到数据仓库的数据源中,这个同步的过程叫采集。 Spark中存在shuffle操作的,所谓的shuffle其实就是将数据落盘, 数据源 =》 加工数据 =》 统计数据 =》分析数据(排序,取前多少条) 数据仓库自己的数据源来自业务数据库的数据,不断汇总业务数据库的数据, 对数据源中的数据进行加工处理,为了后面的数据统计分析做准备。
2024-03-01 19:24:00
1667
1
原创 hive on spark 出现的问题 Spark job failed during runtime. Please check stacktrace for the root cause.
引擎使用spark会出现各种问题,可以尝试将引擎换成MR。出现此问题,可能是表之间的连接出现了错误。此时将会报上述的错误。
2024-02-29 19:30:26
1024
原创 MapReduce切片原理
切片则是对输入文件的处理,合理的切片大小则会处理速度。若是300Mb的数据,按照默认的块大小128Mb可以将文件切成3份。若是不合理的切片值,例如切片 1Mb那么一个文件将会切成300份,将会提升效率吗?切的越多yarn也会进行资源调度,如是资源不足的时候部分的MapTask将会在等待。 数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其分成片进行存储。数据切片是MapReduce 程序计算输入数据的单位,一个切片会对应启动一个MapTask。数据块是HDFS 存储数据单位。
2023-12-20 21:18:08
177
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅