- 博客(25)
- 收藏
- 关注
原创 快餐项目4--sgg
数据采集有两种方法,全量采集和增量采集,他们会把数据以不同的形式(特定分隔符分割。ODS层的数据是通过Maxwell或者dataX同步到hdfs上的.ODS层的表结构设计依托于从业务系统同步过来的。理论上每个相关维度均需对应一张维度表。二 数仓开发之DIM层。
2024-08-16 17:35:17
354
原创 spark-sgg-java
如上图所示,将业务代码提交到spark到提交,然后用资源去计算.spark是一种计算框架,spark集群部署有很多种.
2024-08-14 15:28:43
311
原创 git推送错误-->远程分支比本地的分支更新,无法直接推送
大概意思是,远程仓库的代码被修改过,所以本地仓库的代码不能直接推送到远程仓库,必须做一些修改之后在推送.每次上传本地修改好的代码的时候,十次有八次都会出现这样的问题!出现远程仓库被修改之后,本地修改的代码推不上去这种情况的时候,到底该怎么做?直接git pull不会使得远程仓库的代码直接把本地仓库的代码覆盖掉嘛?现在写个帖子记录一下,这个问题目前我还没有解决,欢迎懂的佬指点一下.查了好多帖子,都没有解决,最后强制推上去了(无奈😔)但是我这里有个问题,
2024-08-08 15:49:33
477
4
原创 sgg快餐项目-2项目前数据同步
简介:DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。(把hdfs导入到mysql,把mysql数据导入到hdfs)总结:DataX就是不同数据源之间的桥梁。2.2 DataX架构。
2024-08-01 11:07:43
1227
原创 DDPM代码(未完结篇)
ddpm的代码看了好几次了,总是看了忘,忘了看,今天在看Diffusion-TS,记录一下,该论文是基于DDPM的,下边所有的记录都依据该论文的代码展开。首先是diffusion-TS的__init__()函数:该函数主要是初始化一些alpha,beta值。
2024-07-31 14:14:26
408
原创 数据仓库入门(HDSF篇,未完结)
2.帮助NameNode完成元数据的整理工作。(打杂)(元数据是什么后边会介绍到)hadoop就是中心化模式。(包括其三大组件,因为在部署的时候会启动对应的主节点和从节点)1.是一个独立的进程。当在服务器上启动了NameNode,那么他就有一个进程。2.负责管理HDFS的整个文件系统和Datanode。2.主要负责数据的存储,即存入数据和取出数据。2.1 HDFS和Hadoop的关系。1.是一个独立的进程。一、分布式系统常见的模式。
2024-07-18 12:19:15
394
原创 mysql多表查询&子查询(未完结篇)
我们通常使用select * from table 来查询表内的某个字段,但是现在要查询多张表的字段怎么办?情景:查询学生信息并且查询出每个学生的班级信息。现在有两张表,table1和table2,如下图所示,table1中包含id和学生姓名,table2中包含id和班级信息,现在我们要做的就是查询处学生和其所对应的班级,所以我们要用到table1和table2两张表。
2024-07-14 22:07:14
396
原创 LSTM初识
(本人习惯先学习知识前先总览,所以这里先放一个总结)下图为LSTM的结构图sigma表示的是sigmoid激活函数 ,三个门用的都是sigmoid。三个门(遗忘门,输入门和输出门)的输入都是和LSTM的输入是三个,(隐藏层输出的东西)、(这一门课要学的东西)和(上一门课包含的记忆)
2024-07-10 09:51:03
361
原创 数据仓库入门(hive篇未完结)
元数据(metadata),是描述数据的数据,主要是描述数据的属性的信息,比如:存储位置,历史数据,资源查找,文件记录等.
2024-07-03 13:42:23
1395
原创 ubuntu开机进入grub(联想)
我的ubuntu坏了,每次必须进入修复模式,我的电脑是联想thinkpad,开机时长按shift键就可以进入grub模式。
2024-02-22 14:22:05
1409
1
原创 【分割】labelme标注的Yolo标签转Voc形式
voc形式的标签图片:voc标签图片是将类别index(1,2,3,......)映射到颜色。现在用labelme标注的分割数据集标签是json类型,标注信息会以一个大字典的形式存储在json文件中,要将json形式标签转化成voc带有调色盘的标签图片。
2023-12-30 14:38:27
837
1
原创 链表2-->练习题
current.next=current.next.next # 如果下一个节点是要删除的节点,那么将当前节点指针指向下下个节点。else:注意:最开始写的时候我有一个误区,最后return的不是dummy_node.next,而是current.next,然后就报错了。
2023-10-09 12:57:07
101
1
原创 链表1-->基础知识
串联在一起的线性结构,链表是由节点组成的,每一个节点包括两个区域,数据域和指针域,数据域存放当前节点的数值,指针域指向下一个节点对象。
2023-10-09 10:26:30
96
1
原创 数组-->二分法,双指针法(快慢、滑动窗口)
如果数组长度为8的话那么最多只需要3次就可以将target找出来,所以时间复杂度是o(logn)时间复杂度:o(logn):数组、二分法查找。
2023-10-08 09:30:05
115
原创 day 4
第一题:括号的最大嵌套深度第一题:括号的最大嵌套深度解题思路:还是和思路一样,将左括号压入栈中,如果遇到右括号,先计算一下栈中左括号的个数,左括号的个数就代表第几层。除了要创建一个栈stack,还要创建一个空列表flag,储存所有括号的深度,返回最大的值即最大的嵌套深度。注意:列表的max(list)方法当list为空列表时会报错。第二题:商品折扣后的最终价格(这道题我有一个小误区。
2023-07-20 13:39:02
98
原创 day3 两个双端队列实现栈
(相当于q1里边有一队人,这个时候来了一个大哥另起一队q2,让之前那队q1都排到他后边,虽然他来的最迟,但是能最早出队)
2023-07-18 17:11:29
169
1
原创 day2
如果一开始碰到的是右括号,那需要从栈中弹出一个值和该右括号进行匹配,但如果此时栈(列表)是空的就会报错,所以让栈初始的时候就有一个值,在字典中也有该值的键值对。2.使用堆栈,通过遍历循环字符串将左边的括号压入堆栈中,将右括号与左括号进行配对看是否成功。1.构建一个哈希表,将括号匹配成键值对存放在哈希表中。最多遍历循环一遍字符串,复杂度为O(n).
2023-07-17 12:00:06
95
原创 day1
栈顶的三明治会一直在栈顶等待匹配,该三明治能不能被拿走取决于队列中有没有学生喜欢这个三明治,而学生在队列中的位置并不重要,当栈顶的三明治没有对应学生与之匹配时,整个匹配过程结束。
2023-07-17 00:04:49
144
1
原创 flex布局--主轴方向分别为水平和竖直
这里div是父级盒子,在div中有一个span标签和一个h4标签。span标签为行内样式,h4标签独占一行。h4标签并没有独占一行,而是与span标签一起排列在主轴方向。高度没有设置,默认为父级高度。
2023-07-11 21:54:05
258
原创 windows下安装ubuntu22.04.2
其中efi区和/boot区只需要安装一个,根据自己的电脑定(第一篇帖子中abcd四种类型对应不同的形式)。先进入电脑的bios页面,(不同电脑进入方式不同,msi是在开机时按del)。之后进入ubuntu安装页面,安装参考原文,重点说一下分区。我分了四个区:efi区或者/boot、swap区,/.区,/home区。(1)在c盘分配200MB空间来安装启动项。(2)在机械硬盘分配50G给ubuntu。给ubuntu分配的空间看自己的硬盘大小,越大越好。2.确认好自己的电脑属于哪种类型,我的是d。
2023-07-10 12:30:27
569
1
空空如也
MAE论文的代码该跑那个
2022-10-18
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅