- 博客(4)
- 收藏
- 关注
原创 数仓建设理论总结
指用关系模型来组织数据信息的数据库。关系模型指的是二维表格模型,而一个关系型数据库便是由二维表以及表之间的关系所构成的一个数据集合。:指非关系型的,分布式系统的,且一般不确保遵照ACID标准的数据储存系统。非关系型数据库算是一种数据结构化储存的集合,可以是文档或键值对等。非关系型数据库的本质是传统关系型数据库的功能阉割版本,通过去掉不需要的功能来提高性能。非关系型数据库的类型:1,键值储存数据库2,列储存数据库3,文档型数据库4,图数据库。
2023-05-11 02:47:26
502
1
原创 hive和hadoop
mr程序的执行过程 MapReduce程序的主体思想是分而治之。构建抽象模型:Map和Reduce MapReduce中定义了如下的Map和Reduce两个抽象的编程接口,由用户去编程实现: map: (k1; v1) → [(k2; v2)] 分,可以高度并行 reduce: (k2; [v2]) → [(k3; v3)] 合,将同一个分区的数据拉到一起处理 MapReduce处理的数据类型是<key,value>键值对。 编写mr程序的代码片段如下 public....
2021-11-11 02:11:24
1092
原创 spark与kafka
spark spark的并行度 : 从hdfs读取文件时:(tfrecords这种特殊类型读取时一个文件一个分区) rdd的分区数 = max(hdfs的block块个数, sc.defaultMinPartitions) spark.default.parallelism = max(所有executor使用的core总数,2) sc.defaultMinPartitions = min(spark.default.parallelism,2) sc.def......
2021-10-27 23:04:28
704
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人