
机器学习
机器学习点滴
特立独行的Q
“What I cannot create, I do not understand.” -- Richard Feynman
展开
-
多模态模型:学习笔记(一)
例如,在图像中,遮挡掉的补丁可以通过预测正确的像素值来学习图像特征,这涉及到了图像的低频和高频信息的处理。例如,将224x224的图像分割为14x14的patch,每个patch是16x16像素,然后将每个patch的像素值展平为一个256维的向量,通过线性层投影到768维的嵌入空间。例如,在Transformer架构中,不同层的特征具有不同的语义级别(低层偏向于边缘、纹理等细节,高层偏向于对象、场景等语义),跨层注意力可以促进不同语义层次之间的信息流动,让模型更全面地掌握图像的细节和整体信息。原创 2025-02-16 15:52:35 · 828 阅读 · 0 评论 -
机器学习:学习记录(一)
另外,我们的样本属性并不一定能完全代表分类的标准,可能有漏掉的特征,也可能有不准确的特征。具体来说,首先计算好瓜坏瓜这个随机变量的信息熵,然后计算特征A各个可能性下的好瓜坏瓜的信息熵的期望,相减得到信息增益,计算所有特征的信息增益,选取信息增益最大的作为节点。贝叶斯分类器就是在这种假设下的分类器,只需要求出在输入变量(特征)X1...Xn的条件下,各个可能类别的条件概率,找到最大的即为要分的类。条件概率:一个事件在另一个事件发生条件下的概率,即P(B|A),若两者独立,则等于P(B)原创 2025-02-07 23:43:53 · 1160 阅读 · 0 评论 -
大模型的架构分类
核心思想是利用编码器对输入序列进行编码,提取其特征和语义信息,并将编码结果传递给解码器。然后,解码器根据编码结果生成相应的输出序列。这种架构的优点是能够更好地处理输入序列和输出序列之间的关系,从而提高机器翻译和对话生成等任务的准确性。缺点是模型复杂度较高,训练时间和计算资源消耗较大。原创 2024-09-04 18:00:59 · 266 阅读 · 0 评论 -
机器学习:学习记录(二)
非线性函数:一种非线性映射,在二维空间中不是一条直线(曲线或折线),通常不满足可加性和齐次性。ReLU函数:非线性激活函数,简单可以写作max(0,x),在0处不可导,但是可以人为定义其导数。优点:缓解了sigmoid函数梯度消失的问题,单侧抑制符合生物神经元特征,带来了稀疏性(dropout),缓解了过拟合。softplus函数:非线性激活函数,可以看作ReLU函数的光滑近似,该函数的导数为logistic函数。logistic函数(sigmoid函数):非线性激活函数,将R区间映射到(0,1)区间。原创 2025-02-09 10:40:09 · 186 阅读 · 0 评论 -
无监督学习通俗理解
在洗钱行为的检测中,需要将这种洗钱的异常行为和正常行为区分开,但是我们不知道洗钱行为的标准是什么样的,因此用到了无监督学习。目标是将这些行为数据的分布在一个高维空间中是两大块,类间距离远,类内距离近。因此它的标准就是很难区分开。原创 2025-01-06 15:50:07 · 91 阅读 · 0 评论 -
EfficientNet训练天坑——eval
会使得 Batch Normalization 使用全局统计信息而不是 batch 的统计信息,而 Dropout 层会变得无效。这是因为在测试时我们不再需要通过 batch 的统计信息来进行归一化或者随机失活。在训练过程中,Batch Normalization 和 Dropout 层通常会采用不同的行为。主要是为了确保在测试阶段模型的行为与训练时一致,并减少内存占用。在测试阶段,为了得到模型的最终输出而不影响其行为,通常会调用。各种修改,各种debug,各种死马当活马医;在训练阶段,你通常会使用。原创 2023-12-18 23:47:58 · 416 阅读 · 1 评论 -
一句话——机器学习概念理解1
2.朴素贝叶斯分类——使用朴素贝叶斯公式计算样本为某个标签的概率,即使用先验信息求解后验信息。5.决策树——某一特征下标签的信息熵最小,说明这个特征为最佳判别依据。3.逻辑回归——线性回归(极大似然之类)+Sigmoid函数。1.支持向量机(线性)——寻找与样本几何间隔最大的超平面。4.K近邻——根据样本分布,少数服从多数。6.随机森林——多个决策树共同投票决策。原创 2024-01-09 11:39:42 · 631 阅读 · 0 评论 -
nll_loss_forward_reduce_cuda_kernel_2d: Assertion `t >= 0 && t < n__classes` failed.
参考如上,第二种方法解决的,我在数据量化时,将label设为了1-8,自此报各种奇怪错误。总结:label需要从0开始,原因不知。原创 2024-01-04 23:11:34 · 1105 阅读 · 2 评论 -
储备池计算的理解
储备池计算,又称作回声状态网络,用于处理时间序列数据。循环神经网络中的隐藏层固定权重后就是储备池,包含了历史输入的信息、非线性处理和线性处理能力,储备池将输入映射到高维中,无须训练储备池,只需训练储备池后的输出表达即可得到想要的结果,一般使用简单的最小二乘法进行训练。相比RNN优点是训练简单。原创 2023-11-22 17:44:58 · 797 阅读 · 0 评论 -
从RNN看神经网络原理
典型神经网络包括输入层、隐藏层和输出层,输入层到隐藏层的过程是机器学习输入特征的过程,也就是机器将输入转换成自己可以理解的形式,隐藏层到输出层的过程是机器理解的信息转换成人可以理解的信息的过程。例如人:what time is it?——>机器语言:“在问时间”——>人:这是在问时间。循环神经网络是将机器对上下文的理解融合到了一起,再转换为人能理解的信息。原创 2023-11-22 17:15:06 · 67 阅读 · 0 评论