ddf482-优快云博客

原创 spark GraphX 常用算子介绍

构建图，查看图信息边过滤，点过滤三元组属性值出度入度subgraph连通图参考官网文档：https://spark.apache.org/docs/latest/graphx-programming-guide.html。

2023-04-26 17:44:16 221

**背景：**对于一些维度表，数据量特别大，每天又会有新增或者修改的数据，但是这部分数据总数据量的比重不大。如果做成每日全量数据，会导致大量的重复数据，占用存储资源；如果做成全量最新，则会缺少历史数据。针对这种情况，可以考虑使用拉链表。**设计思路：**每行数据加上两个字段，开始时间，结束时间。初始值，开始时间设置为当天，结束时间设为9999-99-99；新增数据，开始时间设置为当天，结束时间设为9999-99-99；修改数据，原数据的开始时间不变，结束时间改为修改当天，修改的数据开始时间设置为修改当天，

2022-05-21 14:53:43 5105 2

原创 HDFS文件读取流程

背景：了解客户端及与之交互的HDFS，namenode，datanode之间的数据流是什么样的。引用资料：《Hadoop权威指南》如图：读取流程：客户端通过调用 FileSystem 对象的 open() 方法来打开希望读取的文件，对于 HDFS 来说，这个对象是 DistributedFileSystem 的一个实例。DistributedFileSystem 通过使用远程过程调用（RPC）来调用 namenode ，以确定文件起始块的位置。对于每一个块，namenode 返回存有改块副本的

2022-04-26 23:49:47 1909

原创 MapReduce案例——求每年最高气温

MapReduce的逻辑数据流第一步、需要一个 map函数：import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;//hadoop 本身提供了一套可优化网络序列化传输的基本类型，而不直接使用java内嵌的类型import org.apache.hadoop.mapre

2022-04-23 21:14:48 3118

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

zzf135的博客

原创 spark GraphX 常用算子介绍

原创 MYSQL忘记密码 &重置密码

原创拉链表的制作过程

原创 HDFS文件读取流程

原创 MapReduce案例——求每年最高气温

空空如也

空空如也

原创 spark GraphX 常用算子介绍

原创 MYSQL忘记密码 &重置密码

原创 拉链表的制作过程

原创 HDFS文件读取流程

原创 MapReduce案例——求每年最高气温

空空如也

空空如也

原创拉链表的制作过程