- 博客(11)
- 收藏
- 关注
原创 数仓建模的4种方法论
大数据的数仓建模,是通过建模的方法,从业务和数据分析使用的角度出发,更合理的、高效的组织和存储数据。同时分层后的数据,拥有更加完整的数据体系,清晰的数据结构。能够有效提高数据获取、统计和分析的效率,进一步为业务发挥出数据的价值。每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。1)解决数据集成和数据质量问题:集成不同源系统的数据,并将其进行整合,消除异构性和冗余性,提供一致的数据;对数据进行统一清洗、转换和加工,屏蔽脏数据;字段命名的统一规范化;
2023-09-03 18:48:04
1614
原创 大数据分布式数据库
1、代码更清晰,处理逻辑更简单;2、不用考虑各种锁的问题,不存在加锁和释放锁的操作,没有因为可能出现死锁而导致的性能问题;3、不存在多线程切换而消耗CPU;4、无法发挥多核CPU的优势,但可以采用多开几个Redis实例来完善;5、Redis6.0之前是单线程的,Redis6.0之后开始支持多线程;
2023-08-13 13:36:27
169
原创 Mysql知识点总结
聚簇索引适合于那些经常需要按照索引顺序进行数据查询的表,例如时间序列数据表;而非聚簇索引适合于那些需要频繁插入和更新数据的表,例如日志表。在实际使用中,应根据表的特点选择合适的索引类型。
2023-08-12 00:35:33
117
原创 大数据Hadoop常考知识点汇总
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,主要解决海量数据存储与计算的问题,其中主要包括HDFS、MapReduce和Yarn框架。
2023-08-08 21:24:25
1253
原创 flink学习资料
书籍:《Flink实战》、《Flink:使用Python进行实时数据处理》、《Flink:使用Java进行实时数据处理》等书籍都是很好的学习资料,它们详细介绍了Flink的开发流程、API、流处理、批处理等方面的内容。代码示例:Flink官方提供了一些Flink的代码示例,这些示例可以帮助你快速了解Flink的开发流程和API,同时也可以帮助你更好地理解Flink的工作原理。官方文档:Flink官方文档提供了详细的教程和示例代码,包括Flink的工作原理、API、开发工具、流处理、批处理等方面的内容。
2023-07-11 15:09:49
225
原创 hive优化处理大量小文件
Hive的数据存储在HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量。HDFS主要分为NameNode,DataNode,ZKFC。
2022-06-21 15:27:34
2571
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人