自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 flink知识点

flink常考知识点汇总

2024-02-27 23:56:08 2665 1

原创 虾皮面试题目100(常考算法)

虾皮面试常考算法题目100

2024-01-17 22:04:07 1122 2

原创 数据开发经验总结-流程规范

数据开发经验,数据价值体现

2023-10-26 00:04:53 790

原创 数仓建模的4种方法论

大数据的数仓建模,是通过建模的方法,从业务和数据分析使用的角度出发,更合理的、高效的组织和存储数据。同时分层后的数据,拥有更加完整的数据体系,清晰的数据结构。能够有效提高数据获取、统计和分析的效率,进一步为业务发挥出数据的价值。每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。1)解决数据集成和数据质量问题:集成不同源系统的数据,并将其进行整合,消除异构性和冗余性,提供一致的数据;对数据进行统一清洗、转换和加工,屏蔽脏数据;字段命名的统一规范化;

2023-09-03 18:48:04 1614

原创 大数据分布式数据库

1、代码更清晰,处理逻辑更简单;2、不用考虑各种锁的问题,不存在加锁和释放锁的操作,没有因为可能出现死锁而导致的性能问题;3、不存在多线程切换而消耗CPU;4、无法发挥多核CPU的优势,但可以采用多开几个Redis实例来完善;5、Redis6.0之前是单线程的,Redis6.0之后开始支持多线程;

2023-08-13 13:36:27 169

原创 Mysql知识点总结

聚簇索引适合于那些经常需要按照索引顺序进行数据查询的表,例如时间序列数据表;而非聚簇索引适合于那些需要频繁插入和更新数据的表,例如日志表。在实际使用中,应根据表的特点选择合适的索引类型。

2023-08-12 00:35:33 117

原创 大数据Hadoop常考知识点汇总

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,主要解决海量数据存储与计算的问题,其中主要包括HDFS、MapReduce和Yarn框架。

2023-08-08 21:24:25 1253

原创 flink学习资料

书籍:《Flink实战》、《Flink:使用Python进行实时数据处理》、《Flink:使用Java进行实时数据处理》等书籍都是很好的学习资料,它们详细介绍了Flink的开发流程、API、流处理、批处理等方面的内容。代码示例:Flink官方提供了一些Flink的代码示例,这些示例可以帮助你快速了解Flink的开发流程和API,同时也可以帮助你更好地理解Flink的工作原理。官方文档:Flink官方文档提供了详细的教程和示例代码,包括Flink的工作原理、API、开发工具、流处理、批处理等方面的内容。

2023-07-11 15:09:49 225

原创 Scala布隆过滤统计海量数据的UV值

flink海量数据的去重统计

2022-12-21 17:14:41 187

原创 Scala处理Json数组

【代码】Scala处理Json数组

2022-10-10 19:58:38 1985

原创 hive优化处理大量小文件

Hive的数据存储在HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量。HDFS主要分为NameNode,DataNode,ZKFC。

2022-06-21 15:27:34 2571

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除