- 博客(28)
- 收藏
- 关注
原创 数据结构与算法-双指针法
学习计划:3个月内算法小成,完成leetcode hot100当前进度:学完数组、链表刷题语言:Python时间:2025/02/17-2025/03/31学习链接:代码随想录双指针法是一种算法思想,总结了前面数组,链表,哈希表,字符串的内容给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于 val 的元素,并返回移除后数组的新长度。不要使用额外的数组空间,你必须仅使用 O(1) 额外空间并原地修改输入数组。元素的顺序可以改变。你不需要考虑数组中超出新长度后面的元素。示例 1: 给定
2025-03-31 16:49:36
587
原创 SQL宏-代替UDF
最近学到新的骚操作,。SQL宏是一种类似于函数的结构,它允许用户定义一组SQL语句或逻辑,并通过一个名称来引用它。宏的主要作用是简化复杂的SQL查询,提高代码的可读性和可维护性。它可以在SQL查询中被多次调用,就像函数一样。
2025-03-21 16:45:06
426
原创 大数据架构演变
重点是查询,在读性能上有很高的要求, 通过二分查找、hash、B+树等方式虽然数据查询很快,但是底层磁盘造成了大量随机写。同时对表的要求很高,比如结构化、索引、主键等。因为磁盘随机写慢,顺序写快的特性,想要提高写操作性能,设计成顺序写。顺序写很简单,就是直接将数据追加到文件后面,但是读取/查询是就需要扫描所有数据,很浪费时间。:之前是sqoop,flume,maxwell,datax等各种组件采集,引入组件多,链路复杂,现在是cdc千表入湖。:日志结构合并树,是一种分层,有序,面向磁盘的数据结构,其。
2025-01-06 21:50:58
1009
原创 Apache Paimon-实时数据湖
Flink社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,推出新一代的 Streaming Lakehouse 技术,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了 Flink Table Store (简称 FTS )子项目,一个真正面向 Streaming 以及 Realtime的数据湖存储项目。
2025-01-06 17:20:34
1294
原创 数仓相关书籍读后感
主要讲维度建模和具体的业务场景例子,维度建模步骤:选择业务过程-声明粒度-确认维度-确认事实,星型模型&雪花模型,事实表&维度表怎么设计,事务-周期快照-累积快照-无事实事实表,其他印象深刻的:蜈蚣事实表,数据仓库总线矩阵。
2025-01-05 21:38:38
1052
原创 电商数仓面试必问题
范式建模:就是严格按照三范式的要求来进行建模,通过实体关系模型(ER模型)来描述业务,不同的实体有不同的属性,并且实体和实体直接存在着关系,这个就说实体关系模型,比如用户和商品就是两实体。严格按照三范式来建模的话,一般就会生成很多小表,虽然减少了数据的冗余,但是查询效率会比较低。维度建模:就是反范式建模,并不严格按照三范式要求进行建模,主要分为事实表和维度表,事实表就是业务过程,比如下单、退单等,包括维度列和度量列,这个维度列就是用来关联维度表的;按照维度表的设计不同,有星型模型、雪花模型、星座模型。
2025-01-02 20:58:22
638
原创 导师让你给实验室搭服务器?不会?我教你
制作过程:(在其他windows电脑上制作就行)1.打开Rufuse,设备选择准备好的U盘,引导类型选择ISO镜像文件,其他参数如图,点击开始2.选择,点击3.选择,选择,等待制作完成即可。(使用Rufuse会自动格式化U盘,所以比较方便不需要自己去格式化)
2024-12-27 20:26:19
1275
原创 数据结构与算法-哈希表
一般来说,哈希表是用来判断一个元素是否出现在集合里。数组:固定了数值的长度,比如固定的26个字母集合(set):计算两个列表的交并差映射/字典(map):最常用其他:三数之和四数之和需要去重时,哈希法去重很麻烦,不如使用指针法,先对数组进行sort排序,使用指针跳过下一个相同的数实现去重。
2024-12-17 10:11:47
823
原创 什么是云计算
云计算是一种基于互联网的计算模式,它将计算任务分布在大量的计算机构成的资源池上,使得用户能够以按需使用、按量计费的方式获得所需的计算服务。云计算具有超大规模、高可用性、虚拟化、可伸缩性等优点,已经成为了计算机领域中不可或缺的一部分。云计算是一种通过Web提供IT服务的方法,使用户能从远程服务器存储和访问数据及应用。它主要由IaaS、SaaS和PaaS三种服务组成,在大模型时代又提出了MaaS服务,提供了成本节省和无缝设备间切换的优势。然而,安全性和依赖互联网的潜在风险也是其挑战。
2024-09-20 21:15:27
1169
原创 数据结构与算法-数组
import sysinput = sys.stdin.read #获取输入data = input().split() #获取输入的内容,字符串格式n = int(data[0]) #把字符串形式转int类型#输出,直接打印输出即可main()
2024-09-20 11:32:06
928
原创 DataWorks数据质量监控方案
日常的调度监控,可以查看实例任务的运行情况,对运行失败的实例进行告警,但是却无法对运行成功的实例进行数据质量的判断。而有些情况下,即使实例任务运行成功了,数据也仍然存在问题,这时候就需要对数据进行质量监控,配置数据质量规则进行判断和告警,以便及时发现数据质量的问题。:监控某表每日分区的数据异常,可以明显看到24/25/27/28四日数据明显异常。
2024-09-05 18:51:16
1304
原创 with recursive as实现递归
是一个用于创建递归查询的语句。它允许你定义一个 Common Table Expression (CTE),该 CTE 可以引用自身的输出。递归 CTE 非常适合于查询具有层次结构或树状结构的数据,例如组织结构、文件系统或任何其他具有自引用关系的数据。相信大家都会用,用于创建临时表达式CTE(我理解为临时表),方便在后续代码中引用它,是的代码看起来更加简洁,且逻辑更清晰。例2:查找树形结构所有员工及其上级经理。例1:递归获得递增的序列。
2024-08-29 15:12:58
520
原创 部门递归场景-SparkSQL实现
使用pyspark写递归函数,不断left join,直至获得每个部门的一级部门,保存在新表中,再使用人员表关联这张新的一级部门表即可得到每个员工的一级部门。:有一张部门表,和员工表,如何获得员工的一级部门(一级部门的上级部门ID为0)
2024-08-29 14:12:36
897
原创 Dataworks_PySpark开发流程
PySpark是由Spark官方开发的Python语言第三方库,Python开发者可以通过使用python语言来编写Spark程序和SparkSQL完成开发。之所以采用PySpark而不采用Java/Scala,是由于:Dataworks可通过将代码在线写入DataWorks Python资源的方式,实现PySpark作业开发,并通过ODPS Spark节点提交运行该代码逻辑,开发过程较为简单。
2024-08-26 14:52:05
1340
原创 Spark面试题
在基于 Hash 的 Shuffle 实现方式中,每个 Mapper 阶段的 Task 会为每个 Reduce 阶段的 Task 生成一个文件,通常会产生大量的文件,伴随大量的随机磁盘 I/O 操作与大量的内存开销。计算每个分区时,在分区所在机器的本地上运行task是最好的,避免了数据的移动,减少数据的IO和网络传输,这样才能更好地减少作业运行时间。Spark的任务是以线程的方式运行在进程中的,MR的任务是以进程的方式运行在Yarn集群中的,开启和调度进程的代价大于线程的代价。在不需要排序的场景使用。
2024-06-03 11:20:48
586
1
原创 Flume面试题
一个分布式、可靠、高可用的海量日志采集、聚合、传输系统。Flume面试很少问比较底层的东西,相当于是一个采集工具,会用会解决故障就好。
2024-04-25 15:07:52
849
1
原创 Hadoop面试题
数据倾斜就是在计算数据的时候,由于数据分散度不够,导致大量的数据集中到一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程很慢。
2024-04-19 19:28:05
1811
2
原创 一个月速通大数据开发
以下是我一个月速通大数据开发的学习路线,仅供参考,学完只是对大数据有一些基本了解,如果学历背景比较好的话,包装一下项目,背背八股文也能找到实习,目前刚学完,准备梳理一下知识,整理八股文准备实习。
2024-04-18 21:20:39
737
1
原创 Github加速
(IP地址填自己的,有几个填几个,好像填一个也OK,如果登不上了,这个IP地址可能更新了,重新修改就行)保存之后替换掉原来的hosts文件,重启浏览器,打开www.github.com,你会发现顺畅无比!hosts文件路径:C:\Windows\System32\drivers\etc\hosts。1.查询Github的IP地址。2.修改hosts文件。,话不多说,直接开始。
2023-09-02 22:49:51
329
1
原创 python给我做500份问卷
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档Python问卷自动填写前言一、自动填写问卷分为几步?二、具体步骤1.自动打开网页2.通过xpath实现自动点击至于怎么找xpath?3.自动填写并提交4.实现循环三、全部代码前言最近学校搞调研活动,需要收集问卷,还有份数要求,数量不够,自己来凑,但是手动填写有很麻烦,所以就有了这个项目。一、自动填写问卷分为几步?首先肯定是要实现自动打开网页,自动点击,这个地方,我搜了以下,基本上都是用的selenium是在我实现了第一步之
2021-11-16 12:26:01
3001
1
原创 小白如何做一个Python人工智能语音助手
小白如何做一个Python智能语音助手真的是小白?新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入真的是小白?大家好,我是一名信息工程的大三学生,由于大一大二没怎么学习技术,所以大三准备挖粪图强。先介绍一下我的学习储备吧
2021-10-20 12:30:01
30113
17
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人