- 博客(5)
- 收藏
- 关注
原创 spark GraphX 常用算子介绍
构建图,查看图信息边过滤,点过滤三元组属性值出度入度subgraph连通图参考官网文档:https://spark.apache.org/docs/latest/graphx-programming-guide.html。
2023-04-26 17:44:16
221
原创 拉链表的制作过程
**背景:**对于一些维度表,数据量特别大,每天又会有新增或者修改的数据,但是这部分数据总数据量的比重不大。如果做成每日全量数据,会导致大量的重复数据,占用存储资源;如果做成全量最新,则会缺少历史数据。针对这种情况,可以考虑使用拉链表。**设计思路:**每行数据加上两个字段,开始时间,结束时间。初始值,开始时间设置为当天,结束时间设为9999-99-99;新增数据,开始时间设置为当天,结束时间设为9999-99-99;修改数据,原数据的开始时间不变,结束时间改为修改当天,修改的数据开始时间设置为修改当天,
2022-05-21 14:53:43
5105
2
原创 HDFS文件读取流程
背景:了解客户端及与之交互的HDFS,namenode,datanode之间的数据流是什么样的。引用资料:《Hadoop权威指南》如图:读取流程:客户端通过调用 FileSystem 对象的 open() 方法来打开希望读取的文件,对于 HDFS 来说,这个对象是 DistributedFileSystem 的一个实例。DistributedFileSystem 通过使用远程过程调用(RPC)来调用 namenode ,以确定文件起始块的位置。对于每一个块,namenode 返回存有改块副本的
2022-04-26 23:49:47
1909
原创 MapReduce案例——求每年最高气温
MapReduce的逻辑数据流第一步、需要一个 map函数:import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;//hadoop 本身提供了一套可优化网络序列化传输的基本类型,而不直接使用java内嵌的类型import org.apache.hadoop.mapre
2022-04-23 21:14:48
3118
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人