- 博客(768)
- 资源 (1)
- 收藏
- 关注
原创 人工智能之数学基础:相关系数与协方差
协方差的大小在一定程度上反映了X 和Y相互间的关系,但它还受X和Y本身度量单位的影响。比如说:这个就是说使用X、Y的不同的度量单位,X和Y之间的协方差会不一样,会为克服这一缺陷,对协方差进行标准化,就引入了相关系数的概念。
2025-12-23 22:56:14
21
原创 Flink:处理函数之窗口处理函数ProcessWindowFunction
前面的课程中我们学习了KeyedProcessFunction,本文我们将学习另外一种类型的处理函数----基于窗口的处理函数ProcessWindowFunction。
2025-12-23 22:48:28
153
原创 深度学习算法模型大揭秘:从原理到应用,一篇说清!
想象你拿到一张照片,想让电脑认出里面是猫还是狗。传统方法得手动告诉电脑"看这里有没有尖耳朵""那里有没有胡须",但CNN直接甩出一句:"我自己看!:用"滤镜"自动提取特征CNN的核心是,就像给图片套上一层特殊滤镜。比如第一层可能专门找边缘,第二层找纹理,第三层找部件(比如猫耳朵),最后拼凑出完整物体。这个过程完全自动,不需要人工设计特征。:AlexNet2012年ImageNet竞赛杀出的黑马,用8层网络把图像识别错误率从26%降到15%,直接引爆深度学习热潮。:ResNet(残差网络)
2025-12-20 23:39:05
766
原创 flink处理函数之KeyedProcessFunction
在前面的课程中我们学习了最基本的ProcessFunction,本文我们学习最重要的KeyedProcessFunction。
2025-12-19 22:44:21
191
原创 人工智能之数学基础:协方差(衡量随机变量间关系的手段)
在前面的课程中,我们学习了均值还有方差,通过均值和方差可以对随机变量的一些情况进行刻画,对于二维随机向量 ( X, Y ), 除了其分量 X 和Y 的期望与方差外, 还有一些数字特征,用以刻画随机变量X与随机变量Y之间的相关程度,本文将学习协方差。
2025-12-19 22:40:07
99
原创 ProcessFunction 最基本的处理函数
ProcessFunction是一个继承AbstractRichFunction的抽象类。ProcessFunction有两个泛型类型,如上所示,分别是I和O,其中I表示输入类型,O表示输出类型,这意味着输入类型经过处理函数得到输出类型,输入类型和输入类型是可以不一致的。ProcessFunction抽象类有两个方法,分别是:onTimer()
2025-12-18 20:41:24
51
原创 人工智能之数学基础:随机向量的期望和随机向量函数的期望
在前面的课程中,我们介绍了随机变量的数学期望,本文我们将学习随机向量的数学期望。随机向量的数学期望和随机变量的数学期望的计算方式大致是相同的。
2025-12-18 20:35:15
179
原创 人工智能之数学基础:独立同分布的联合概率
在概率论与统计学中,“独立同分布”(Independent and Identically Distributed, i.i.d.)是描述随机变量集合的核心概念。当一组随机变量满足独立且同分布的条件时,其联合概率的计算、统计推断的简化以及模型构建的合理性均得到显著提升。
2025-12-14 13:36:16
356
原创 处理函数(ProcessFunction)
在前面的课程中我们学习了基于DataStream的各种操作,比如聚合、转换、窗口等等,我们可以利用flink定义的各种算子来完成各种不同的任务。在DataStream的下一层就是基本处理函数(ProcessFunction),在这一层没有了算子的概念,我们可以在这一层接触到很多底层的逻辑,可以脱离FLink为我们设置的算子框架,为所欲为,本文对此进行学习。
2025-12-14 13:10:10
28
原创 人工智能之数学基础:离散条件分布和连续条件概率密度
以上就是二维随机向量的条件分布的定义,现在将条件分布推广到多维度的堆积向量,将随机向量X拆分为两部分XA、XB,其中XA=(X1,X2,...,Xr),XB=(Xr+1,...,Xn),这样就可以得到:反之也一样。
2025-12-13 21:45:01
169
原创 窗口相关操作的总结
窗口类型从窗口的驱动类型角度看,窗口可以分为时间窗口和计数窗口从窗口的按照分配数据的规则来看,窗口可以分为滚动窗口和滑动窗口和会话窗口和全局窗口将二者结合起来,我们可以得到滚动事件窗口、滚动计数窗口、滑动事件窗口、滑动计数窗口、会话时间窗口、全局窗口(需要依赖触发器)窗口的类型和基本信息由窗口分配器指定,窗口不会预先创建好,当第一个应该属于这个窗口的数据元素到达时,才会创建对应的窗口。是否分区。
2025-12-13 21:20:41
36
原创 人工智能之数学基础:边缘概率是什么?
前面的课程中,我们学习了随机向量,随机向量中的概率就不是简单的概率了,而是联合概率,多个随机变量决定的概率就是联合概率。对于二维随机向量来说,所谓联合概率就是即满足随机变量1又满足随机变量2的概率。边缘分布是相对于联合概率而言的,对联合概率中某些变量的所有取值情况求和(积分),就可以得到边缘分布。边缘分布(或者边缘概率)定义了联合概率和单个随机变量的概率之间的关系。
2025-12-09 22:45:43
210
原创 Flink对于迟到数据的处理
Flink作为一个流式处理框架,最重要的就是要处理好迟到的数据,保证数据的准确性,本文就来系统学习一下FLink框架针对于迟到数据的处理。
2025-12-09 22:34:01
103
原创 人工智能之数学基础:离散型随机向量
如果随机向量 (X, Y) 的每个分量都是离散型随机变量,则称 (X, Y) 是二维离散型随机向量。二维离散型随机向量 (X, Y) 所有可能取的值也是有限个或可列无穷个。
2025-12-05 22:48:43
131
原创 人工智能之数学基础:从随机变量推广到随机向量
设试验E的样本空间为Ω, X=X(w)与Y= Y(w)是定义在Ω上的两个随机变量,由它们构成的向量 (X, Y) 称为二维随机向量。多个随机变量决定的概率称为联合概率,它的概率分布就是联合概率分布。随机变量分为离散型随机变量和连续型随机变量。随机向量也是如此,随机向量分为离散型随机向量和连续型随机向量。在之后的课程中我们将随机向量分为离散型随机向量和连续性随机向量进行分别学习。
2025-12-05 22:32:39
245
原创 flink 移除器(Evictor):定义移除某些数据的逻辑
移除器主要用来定义移除某些数据的逻辑。基于 WindowedStream 调用.evictor()方法,就 可以传入一个自定义的移除器(Evictor),来实现移除数据的目的。
2025-12-05 22:10:07
142
原创 人工智能之数学基础:凸优化的基础Jensen不等式
凸函数若函数f满足对任意x1,x2和λ∈[0,1],有fλx1+(1−λx2)≤λfx1)+(1−λfx2),则f为凸函数。这里只有两个点x1、x2,如果继续进行推广,那么对于任意的x1、x2、...、xm有:ai≥0。凹函数若不等式反向成立,即fλx1+(1−λx2)≥λfx1)+(1−λfx2),则f为凹函数。
2025-11-30 23:32:35
63
原创 人工智能之数学基础:标准差
前面我们学习了方差,既然学习了方差,那么就不能丢下标准差。在数学的广阔领域中,标准差宛如一把精准的标尺,用于衡量一组数据的离散程度,它为我们深入理解数据的分布特征和内在规律提供了关键信息。从简单的日常统计到复杂的科学研究,标准差都发挥着不可或缺的作用。
2025-11-28 22:56:55
75
原创 机器学习之数学基础:方差的性质以及常见分布的方差
在数据分析和概率统计中,方差是衡量随机变量离散程度的核心指标。它不仅揭示了数据围绕均值的波动规律,更在金融风险评估、质量控制、机器学习等领域发挥着关键作用。
2025-11-23 20:55:23
207
原创 人工智能之数学基础:方差的介绍
方差可以理解为随机变量X的函数g(X)=[X-E(X)]²的期望,也就是先求g(X),然后再求期望E(g(x)),这就是方差。这个意思就是说当我们想要求一个随机变量的方差的时候,我们可以先求这个变量平方的均值,然后减去这个均值的平方就可以了,这两种方法都可以求出方差。首先我们需要知道的是,这个f(x,y)是联合概率密度函数,所以为了求出Y的期望,我们首先应该求出随机变量Y的边缘概率密度函数。方差刻画了随机变量的取值对于其数学期望的偏离程度,若X的取值比较集中,则方差较小。若X的取值比较分散,则方差较大。
2025-11-19 08:56:29
87
原创 人工智能之数学基础:期望的性质以及应用
在前面的课程中我们学习了离散型随机变量和连续型随机变量的期望,期望(Expected Value)是概率论和统计学中的核心概念,用于描述随机变量在长期试验中的平均表现。
2025-11-10 20:42:39
79
原创 人工智能之数学基础:为什么学习随机变量的期望和方差?
在前面的课程中我们学习了随机变量以及随机变量的分布,通过分布我们可以很清晰的知道随机变量的详细情况。但是在实际问题中,概率分布很难确定,所以有时候并不需要知道随机变量的所有性质,而只要知道它的一些数字特征就够了。学习随机变量的期望和方差是概率论与数理统计中的核心内容,它们为理解和分析随机现象提供了关键工具。
2025-11-02 12:10:46
222
原创 触发器(Trigger):灵活控制窗口行为
触发器主要是用来控制窗口什么时候触发计算,也就是什么时候执行窗口函数(但是不会控制窗口的关闭)。在Flink中,有三种类型的触发器:1. 时间触发器(time triggers):基于时间的触发器,根据时间间隔或时间戳来触发操作执行。2. 计数触发器(count triggers):基于记录数量的触发器,根据记录数量来触发操作执行。3. 自定义触发器(custom triggers):用户可以根据自己的需求定义自己的触发器逻辑。
2025-11-01 22:11:06
113
原创 人工智能之数学基础:随机变量函数的分布(离散和连续)
随机变量的分布(离散型随机变量的分布、连续型随机变量的分布)我们已经了解了,本文我们将更近一步,学习随机变量函数的分布。简单来说就是设随机变量X的分布已知,求Y=g(X)的分布。随机变量函数是以随机变量为自变量的函数,它将一个随机变量映射成另外一个随机变量,这两个随机变量一般是不同的分布。
2025-11-01 22:05:02
338
原创 每天五分钟深度学习:基于softmax交叉熵损失的反向传播
至此我们就完成了神经网络的推论工作了,这个是针对于单样本的反向传播,本次的推导相对于前面的推导有以下的几点不同,首先,本次的推导指明了具体的损失函数,然后本次推导从公式出发,如果你看了前面的课程,这篇文章会很好理解。向量化很重要,它可以帮助我们快速的解决多个偏导数,向量化也非常简单,我们看一下我们向量化之后是要标量还是向量还是矩阵。如果要标量,那么我们构建出行向量*列向量的形式如果要向量,那么我们构建出列向量*列向量,或者矩阵*列向量的形式如果要矩阵,那么我们构建出列向量*行向量的形式。
2025-10-18 16:21:47
302
原创 每天五分钟深度学习:为什么dropout可以解决神经网络的过拟合?
Dropout通过随机丢弃神经元,打破了神经元间的固定依赖,模拟了集成学习的效果,同时减少了模型复杂度并增强了鲁棒性。这种“动态剪枝”机制使得神经网络在训练时避免过度依赖特定路径,从而在测试时表现出更好的泛化能力,本文将从多种角度来解释为什么dropout可以解决神经网络的过拟合?
2025-10-18 16:04:01
77
原创 每天五分钟深度学习:基于dropout(随机失活)解决神经网络过拟合
1.每次喂入数据之前,按照概率删掉网络中部分隐藏神经元,输入输出神经元保持不变,现在得到了一个新的神经网络模型2.输入数据x,然后在这个新的神经网络模型中进行前向传播和反向传播,然后完成梯度下降参数更新操作(此时的参数更新只是更新没有被删掉的神经元的网络模型的参数)然后继续重复这一过程。
2025-10-13 22:54:35
269
原创 增量聚合和全窗口函数的结合
如果两个同时使用,流中每来一个数据事件都会在增量聚合函数中进行一次聚合,当窗口关闭的时候,则会调用全窗口函数进行处理,此时全窗口函数就不会再缓存所有数据了,而是直接将增量聚合函数的结果当作了Iterable 类型的输入,由于结果只有一个,所以Iterable 类型的输入中就只有一个元素。全窗口函数处理会比较慢,增量聚合函数处理计算会更高效,但是全窗口函数可以获取到上下文从而获取到更多的信息,所以可以将二者结合起来。
2025-10-12 13:00:01
58
原创 每天五分钟深度学习:两个角度解释正则化解决网络过拟合的原理
前面我们学习了当神经网络模型出现过拟合问题的时候,我们可以使用正则化技术来解决这个问题,并且我们通过梯度下降的公式可以看到,当使用正则化技术的时候,更新参数的时候,很明显的一点是参数比不使用正则化技术变小了。那么为什么变小了就可以解决过拟合问题呢?本文我们将来从两个角度来解释这个问题。
2025-10-12 12:56:08
173
原创 窗口函数之全窗口函数
在前面课程中我们学习了如何通过Flink来定义窗口,窗口定义完毕之后,一旦达到窗口关闭的条件,就会触发窗口计算了,此时就需要执行窗口函数了。本文我们学习窗口函数的其中一种类型——全窗口函数。
2025-10-11 20:42:26
64
原创 每天五分钟深度学习:正则化技术解决过拟合(高方差)问题
前面课程中我们学习了如何搭建一个良好的神经网络模型,总的来说就是先拟合好训练集,然后在验证集上跑一下,如果效果不好,那么就是高方差的问题,如何解决高方差呢?
2025-10-11 20:39:35
200
原创 每天五分钟深度学习:如何利用欠拟合和过拟合来调优神经网络?
总之,构建和优化神经网络模型的过程是一个不断迭代和调整的过程。我们第一步就是先初始化一个简单的神经网络模型,以此为起点,观察模型在训练集上的表现,判断是否存在高偏差问题。如果存在高偏差,我们就通过不断地调整模型结构,增加模型的复杂度,直到找到一个低偏差的框架。然后,我们使用验证集来评估模型的方差情况。如果验证集误差很高,说明模型存在高方差问题,即过拟合问题,我们就需要采取相应的措施,如增加数据量或使用正则化方法来解决过拟合问题。
2025-10-03 10:22:25
133
原创 每天五分钟深度学习:如何判断神经网络是过拟合还是欠拟合?
这里我们要先简单的说明一下,这些情况分析都是基于假设预测的,比如本例中我们假设人的错误率接近0%,我们称它为最优误差。如果有的时候最优误差非常高,比如15%,如果此时我们有一个模型,这个模型的训练误差15%,而验证误差是16%,虽然训练误差15%很大,但是本例中最优误差15%,15%的错误率对训练集来说也是非常合理的,偏差不高,而16%比15也不大,那么此时方差也非常低,这就是我们所应知道的,我们根据训练集误差和测试集误差来判断算法的高偏差和高方差时,首先我们要考虑好本领域的最优误差是多少(人类水平)。
2025-09-29 14:03:14
340
原创 深度学习与大脑的关系是“模拟-验证-超越”的迭代循环
深度学习作为人工智能的核心技术,其设计灵感直接来源于人类大脑的神经网络结构与信息处理机制。通过模拟大脑的分层学习、并行计算和自适应调整能力,深度学习实现了对复杂数据的自动化特征提取与模式识别。:计算输出层与目标值的损失函数(如交叉熵损失),通过链式法则将误差反向传播至各层,更新权重以最小化损失。:引入动量(Momentum)、Adam等优化算法模拟大脑的学习率动态调整,加速收敛并避免局部最优。大脑的功能模块(如运动皮层、语言中枢)为深度学习提供了任务分解的范式。
2025-09-24 23:28:30
964
原创 每天五分钟深度学习:基于训练集、验证集、测试集迭代模型
训练集用于运行你的学习算法。开发集用于调整参数,选择特征,以及对学习算法作出其它决定。有时也称为交叉验证集测试集用于评估算法的性能,但不会据此改变学习算法或参数,尽可能地选择你终期望算法能够正确处理的样本作为测试集,也就是说测试集的数据最好符合真实的项目要求开发集和测试集尽量服从相同的分布,我们可以将所有数据随机洗牌,然后采用抽样的方式,这样可以保证训练集、验证集、测试集都能够在同一分布。
2025-09-24 23:27:24
238
原创 窗口函数之增量聚合函数
在前面课程中我们学习了如何通过Flink来定义窗口,窗口定义完毕之后,一旦达到窗口关闭的条件,就会触发窗口计算了,此时就需要执行窗口函数了。本文我们学习窗口函数中的一种:增量聚合函数。
2025-09-23 13:23:59
347
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅