- 博客(136)
- 收藏
- 关注
原创 【DSP】谱分析实践中的问题分析
(FFT结果中的第一个分量,对应0 Hz)。一般从 开始到(若 N 为偶数),频率从最低正频率逐渐增加到奈奎斯特频率。正频率随索引增加呈线性上升趋势。对应 到 的部分(若 N 为偶数),其频率为负,且按索引增加,频率值逐渐“上升”到接近0,即从最负的频率逐步减小绝对值。对补零后的信号,定义其离散傅里叶变换为其中由于后 2n 个样本全为 0,上式实际上只对有贡献,即。
2025-04-01 14:34:04
531
原创 【DSP案例】
我们处理的大部分数据都是实数序列。设有实数序列(n),把(n)经FFT转到频域中为X(k),然后在频域中进行处理,处理完后经IFFT变成实数序列。本案例将说明如何经IFFT后得到实数序列。按 DFT 的性质,在时间域上对序列进行位移后得到的是一个复数序列,而实际上我们有时希望位移后得到的是一个实数序列。
2025-03-26 18:10:23
824
原创 【DSP】chp—3、离散时间系统(全面详细分析,草履虫都能看懂)
拉普拉斯变换与傅里叶变换的背景首先回顾连续信号的拉普拉斯变换(),傅里叶变换实际上是拉普拉斯变换在虚轴上()的特例。这为后续讨论离散信号提供了对比基础。离散信号的积分与求和由于离散信号不连续,无法直接积分,通过对信号的抽样模型引入狄拉克δ函数,将积分与求和相结合,从而得到离散信号的 Z 变换表达式。Z变换的级数收敛条件由于 Z 变换是一个幂级数,它的收敛性不仅取决于本身,还依赖于的模长。ROC 具有“圆”或“环”的几何形状。对 LSI 系统的脉冲响应。
2025-03-25 08:00:00
1066
原创 【DSP】chp—2、离散时间信号的频域分析(专栏系统讲解DSP,超详细)
离散时间信号的频域分析是通过傅里叶变换(DFT或DTFT)将信号从时域转换到频域的过程。这使我们能够深入理解信号的频谱特性,并在此基础上进行各种信号处理操作,如滤波、压缩等。频域分析是信号处理中的一个核心工具,广泛应用于通信、音频处理、图像处理等领域。定义对于连续时间信号,能量定义为对于离散时间信号,能量为特点当 E 是有限值时,该信号称为能量信号。由于能量是有限的,其平均功率(即单位时间内的能量)通常趋于零。
2025-03-22 08:00:00
1667
原创 【机器学习chp14 — 总】生成式模型大全—扩散模型Diffusion、生成对抗网络GAN、变分自编码器VAE(草履虫都能看懂,超详细分析,易于理解,推导严谨,一文就够了)
在大多数传统任务中,神经网络被视为一个确定性的映射例如,在图像分类中,输入图像(例如尺寸为的RGB图像)经过神经网络映射到一个固定类别集合这意味着给定一个输入图像,模型输出一个类别标签。从确定性映射到概率映射:传统神经网络映射被扩展为,允许输出多样化结果。模型多样性与创造性:通过引入随机性(例如随机变量)生成不同样式的输出,从而满足如图像生成、文本生成等任务的“创造力”需求。极大似然估计与KL散度:利用极大似然原理最大化真实数据的似然,等价于最小化真实分布与模型分布间的 KL 散度。
2025-03-21 13:14:51
981
原创 【机器学习chp14 — 4】生成式模型—扩散模型 Diffiusion model(超详细分析,易于理解,推导严谨,一文就够了)
VAE视角下的扩散模型将数据生成过程分解为多个隐变量 的状态转移,前向过程作为编码器,后向过程作为解码器。与VAE类似,通过构造变分下界(ELBO)对整体对数似然进行优化。数学分解与目标函数下界由重构项和多步KL散度项组成,每一步的KL项均可解析计算。参数化的后向分布通过噪声预测器实现,使得生成过程仅依赖于当前状态 的信息。优势与改进由于每步变化较小,简单的高斯假设足以准确描述局部变化,从而使得扩散模型在捕捉复杂数据分布上较传统VAE更具优势。
2025-03-20 19:00:00
967
原创 【机器学习chp14 — 3】生成式模型—生成对抗网络GAN(超详细分析,易于理解,推导严谨,一文就够了)
直观解释想象有两堆“土堆”,其中一堆代表真实数据分布,另一堆代表生成数据分布。Wasserstein 距离即为将一堆“土”重新搬运成另一堆“土”所需的最小运输成本,其中运输成本通常与搬运的距离成正比。这种解释突出了 Wasserstein 距离对分布“差异”的几何度量,相较于传统的散度(如 JS 散度),在衡量不重叠或分布支持集几乎无交集的情形下能提供更平滑、有效的梯度信息。正式定义对于两个概率分布(真实数据分布)和(生成数据分布),Wasserstein 距离定义为:其中,
2025-03-20 12:28:56
973
5
原创 【机器学习chp14 — 2】生成式模型—变分自编码器VAE(超详细分析,易于理解,推导严谨,一文就够了)
生成式模型的目标是学习数据的分布,从而能够生成与真实数据相似的新样本。变分自编码器(Variational Autoencoder, VAE)是其中一种重要的生成模型,它将传统自编码器的框架与概率模型和变分推断方法相结合,不仅能够重构输入数据,还能从隐变量空间中生成新的数据。与对抗生成网络(GAN)相比,VAE具有明确的概率解释和连续平滑的潜在空间,使其在一些需要不确定性估计或潜在特征表达的任务中表现突出。输入数据:从训练集中获取样本(如图像、文本等)。编码器(Encoder):将。
2025-03-19 19:37:25
1142
原创 【机器学习chp14 — 1】生成式模型概述和主要思想(超详细分析,易于理解,推导严谨,一文就够了)
在大多数传统任务中,神经网络被视为一个确定性的映射例如,在图像分类中,输入图像(例如尺寸为的RGB图像)经过神经网络映射到一个固定类别集合这意味着给定一个输入图像,模型输出一个类别标签。从确定性映射到概率映射:传统神经网络映射被扩展为,允许输出多样化结果。模型多样性与创造性:通过引入随机性(例如随机变量)生成不同样式的输出,从而满足如图像生成、文本生成等任务的“创造力”需求。极大似然估计与KL散度:利用极大似然原理最大化真实数据的似然,等价于最小化真实分布与模型分布间的 KL 散度。
2025-03-19 16:54:01
824
原创 【机器学习chp13--(下)】人工神经网络—优化算法
Batch Normalization 通过对每一层输入进行归一化,既缓解了内部协变量偏移问题,又有助于加速收敛、提高训练稳定性和一定程度上的正则化效果。其实现方式简单而有效,但在应用时也需要注意小批量大小、序列模型的特殊性以及训练与推理阶段统计量的一致性。总的来说,BN 已成为深度学习中不可或缺的一环,为构建更深更复杂的网络模型提供了有力支持。跳跃连接作为深度网络设计中的一项重要技术,主要通过提供直接的信息传递路径,解决了深层网络中梯度消失、信息衰减以及训练不稳定等问题。
2025-03-16 00:26:33
750
原创 【机器学习chp13--(上)】人工神经网络(MLP结构 + KAN结构 + 卷积神经网络)
卷积神经网络之所以在图像处理上更为优秀,主要在于它利用了图像数据的局部性和空间结构,通过局部感受野和参数共享机制大幅降低模型复杂度,并通过多层结构逐步抽象出高层次特征。同时,平移不变性和池化层的应用使得CNN对于图像中的位移、旋转以及噪声具有较好的鲁棒性。正是这些特点,使得卷积神经网络成为图像分类、目标检测、图像分割等任务中的主流模型。节点向量(Knot Vector)节点向量是一系列非递减的实数序列,记为p 是曲线的阶数(通常阶数 p+1 表示多项式的次数,如三次曲线 p=3)。
2025-03-15 13:05:19
1062
原创 【机器学习chp12代码示例】半监督学习
半监督生成模型在有标签数据上的准确率: 1.0。无标签样本上的准确率: 0.9625。有标签数据数: 199。有标签样本数量: 70。收敛于迭代次数: 6。无标记样本数: 80。
2025-03-11 10:47:57
575
原创 【机器学习chp12】半监督学习(自我训练+协同训练多视角学习+生成模型+半监督SVM+基于图的半监督算法+半监督聚类)
半监督学习的定义和基本思想半监督学习(Semi-Supervised Learning,SSL)结合了监督学习和无监督学习的特点。它的基本思想是使用少量的标注数据和大量的无标注数据进行学习。标注数据相对较贵且稀缺,而无标注数据通常可以轻松获得,因此半监督学习能够在实际应用中发挥巨大作用。监督学习:依赖大量标注数据,通过标注数据训练模型进行分类或回归任务。无监督学习:使用未标注数据进行训练,主要用于聚类或数据表示学习,不依赖标签。
2025-03-10 12:09:48
731
原创 【机器学习chp11代码示例】聚类
此示例旨在说明k-means将产生不直观的、可能是意外的聚类的情况。在前三幅图中,输入的数据不符合一些隐含的假设,即k均值生成,因此产生了不理想的聚类。Davies-Bouldin 指数 (DBI): 0.6619715465007465。Calinski-Harabasz 指数 (CHI): 561.62775662962。Dunn 指数 (DI): 0.09880739332807607。Rand 指数 (RI): 0.8797315436241611。混淆矩阵: [[ 0 50 0]
2025-03-08 18:02:28
769
原创 【机器学习chp11】聚类(K均值+高斯混合模型+层次聚类+基于密度的聚类DBSCAN+基于图的聚类+聚类的性能评价指标)
聚类的原理与方法聚类是非监督学习中的一项核心任务,目的是将数据分成不同的簇,每个簇内部的样本相似度较高,簇间的样本差异较大。基于中心的聚类:通过计算每个簇的中心点(例如K-means聚类),然后将样本分配到最近的中心点。这种方法假设数据簇呈现出某种形式的“圆形”结构,适合处理分布比较均匀的数据。基于密度的聚类:通过识别数据点密度的区域来进行聚类,DBSCAN是其中的代表方法。密度聚类的优点在于可以识别形状较为复杂的簇,并且能够自动识别噪声点。层次聚类。
2025-03-06 22:47:09
799
原创 【机器学习chp10】降维——(核化)PCA + MDS + lsomap + 拉普拉斯特征映射 + t-NSE + UMAP
数据映射给定原始数据集我们引入非线性映射将数据映射到高维(或无限维)的特征空间。核函数定义核函数为映射后的内积例如,对于径向基函数(RBF)核有数据映射:利用非线性函数将原始数据映射到高维特征空间。构造核矩阵:通过核函数构造。中心化:利用公式, 对核矩阵进行中心化处理。特征值分解:求解,获得特征向量和特征值。数据投影:利用特征向量,将新数据点通过核函数投影到低维空间,实现降维表示。
2025-03-02 19:55:56
1107
原创 【机器学习chp9代码示例】集成学习算法大全:Bagging(Bagging+随机森林+极度随机森林)、Boosting(AdaBoost+GBDT+XGB+LightGBM+CatBoost)
对大规模数据效果好。
2025-02-28 23:32:31
553
原创 【机器学习chp6代码示例】逻辑回归,样本不均衡时的上采样,分类模型评估方法
会执行与交叉验证相同的过程,但它返回的是每个样本的预测结果。每个样本的预测是由对应的验证集预测得到的。这个方法的主要目的是获取交叉验证的预测结果,以便我们可以进一步分析或可视化这些预测,尤其是在模型调优或模型比较时非常有用。准确率-召回率曲线是针对两分类的,本例中为3分类,所以三种类别分别绘制准确率-召回率曲线。使用生成合成样本来进行过采样补充数目少的类的样本:使用SMOTE(合成少数类过采样技术)是用来指定模型评估指标的参数。)默认是为二分类问题设计的,而此例的目标数据。参数来处理多分类情况。
2025-02-22 23:55:07
688
原创 【机器学习chp5代码示例】线性回归+岭回归+Lasso回归+LAR回归+弹性回归+胡伯Huber损失回归
本文使用的数据集是:加利福尼亚住房数据集(回归)
2025-02-22 13:20:36
311
原创 【机器学习chp4代码示例】特征工程大全
本文使用从 Data Hackathon 3.x AV hackathon 中获取数据集,数据集介绍:Data Hackathon 3.x 是由 Analytics Vidhya 主办的一次数据科学竞赛,旨在为全球的数据科学家提供一个展示技能的平台。ID:每条记录的唯一标识符。Gender:申请人的性别。City:申请人所在城市。:申请人的月收入。:申请人的出生日期。:申请人提交信息的日期。:申请人申请的贷款金额。:申请贷款的期限(年数)。:已有的每月等额还款(EMI),如果有的话。
2025-02-16 23:55:55
1051
原创 【机器学习chp3代码示例】Fisher线性判别,感知机,最小平方误差分类器,广义线性判别函数,分段线性判别函数,最小距离分类器,CART树
最小距离分类器是一种特殊情况下的分类方法,其假设各类别服从正态分布,且具有相同的协方差矩阵和相等的先验概率。决策规则为,将测试样本归类为距离其最近的类别中心。假设两类样本的中心分别为和,则决策面为两类中心连线的垂直平分面。
2025-01-26 00:09:40
766
原创 【机器学习chp2代码示例】朴素贝叶斯分类器(基础版+引入代价+引入拒识),高斯判别分析(线性LDA+二次QDA+原版GDA)
代价敏感学习是指在模型训练和预测时考虑不同类型错误的代价。在高斯朴素贝叶斯中,我们可以通过调整决策阈值或根据代价矩阵调整预测结果来实现代价敏感学习。通过计算假阳性和假阴性的代价,并根据代价选择最优预测,可以有效减少高代价错误。这种方法在一些特定场景下(如金融欺诈检测、医疗诊断等)非常有用,因这些场景中不同类型错误的代价差异很大。高斯判别分析是基于高斯分布假设的分类方法,它通过建立类别条件概率分布来做出分类决策。其基本假设是每个类别的特征服从高斯分布,且各类别之间的数据是独立的。
2025-01-20 23:35:11
629
原创 【图像处理lec10】图像压缩
信息熵表示信息源每次输出的平均信息量(即不确定性):如果符号的概率分布均匀,则熵达到最大值,此时每个符号的选择完全随机。无误差压缩是指在数据压缩后解码出的数据与原始数据完全一致,保证无任何信息丢失。应用场景:无误差压缩常用于对数据精度要求极高的场景,包括:医学影像存储(如数字放射成像);法律文件归档;企业和科学领域的文档存储。目标:通过为频率较高的符号分配较短的编码,减少整体编码长度。公式其中::平均编码长度;:符号 的编码长度;:符号 的概率。
2024-12-27 15:58:02
1359
原创 【图像处理lec9】小波与多分辨率分析
Haar 小波是最简单的正交小波,由 Haar 在 1910 年提出。Haar 小波的特性:正交性:分析滤波器和合成滤波器是相同的。分离性:既可以表示为分离滤波器,也可以表示为变换矩阵。简单性:每个滤波器仅包含两个非零系数。Haar 变换矩阵的表达式:是图像数据的矩阵。是 Haar 变换矩阵。是变换后的系数矩阵。Haar 基函数定义在区间,形式如下:其中和表示小波的尺度和位置。当时,Haar矩阵 为:待续。。。
2024-12-26 16:17:33
1657
原创 【图像处理lec7】图像恢复、去噪
退化与恢复的概念退化:通过退化函数H 和噪声模拟图像退化。恢复:通过恢复滤波器,恢复被退化的图像。图像退化公式:改善图像,使其在某种预定义的标准下更好。根据退化模式,选择不同的恢复滤波器。
2024-12-17 15:02:56
1373
原创 【图像处理lec5、6】频域滤波与图像增强
目录一、二维傅里叶变换1、 二维傅里叶变换基础概念2、二维连续傅里叶变换3、极坐标表示与功率谱4、二维离散傅里叶变换 (DFT)(1)公式(2)离散傅里叶变换 (DFT) 的频谱展示(3)常见二维的傅里叶变换对(4)二维傅里叶变换示例5、二维离散傅里叶变换(DFT)的性质(1)时间移位和频率移位性质(2)平均值与对称性性质(3)可分离性性质(4)旋转性质(5)周期性和线性性质(6)微分性质(7)卷积性质(8)相关性质(9)相似性性质6、二维(DFT)在 MATLAB 中的实现(1)通过 fft2 函数计算二
2024-12-16 01:59:54
1109
原创 【图像处理lec2】matlab的使用
将图像矩阵标准化到 [0, 1]。未指定范围时,MATLAB 会自动按。矩阵索引从 1 开始,与传统的从 0 开始的数组有所不同。这些类型的选择对图像存储、内存效率和处理速度有显著影响。范围为 0-100(值越低,压缩越高)。: 使用逻辑运算将灰度图像转换为二值图像。忽略分号会直接显示图像矩阵的值。的最小值和最大值进行归一化。:自动缩放像素值以适应显示。MATLAB 提供了一系列。使用 MATLAB 的。:使用给定的灰度值范围。:设置保存图像的质量,
2024-12-13 22:49:23
1241
1
原创 【机器学习chp9】集成学习
(1)Bagging与Boosting的区别Bagging(并行):多个基学习器同时训练,各自独立,最终通过投票或平均的方式融合。Boosting(顺序):多个基学习器按顺序训练,每个学习器通过修正前一个学习器的错误逐步提高性能。公式。
2024-12-11 13:07:51
778
原创 【机器学习chp8】统计学习理论
本文第一部分介绍结构风险最小化,也就是期望风险最小化,但期望风险公式中的是基于全集的,是不知道的,无法计算。只能通过训练样本近似期望风险,即只能经验风险来近似期望风险。数据集毕竟不是全集,由此带来的过拟合问题是算法需要关注的最关键的点。文中通过Hoeffding不等式量化了训练误差与测试误差之间的偏差(1.6),但这种量化只适用于有限的假设空间,对于无限假设空间,不能使用Hoeffding不等式。要将假设空间的复杂度(如VC维)引入到不等式中,从而得到无限假设空间下的训练误差与测试误
2024-11-26 17:59:04
1088
原创 【机器学习chp6】对数几率回归
本文遗留问题:(1)案例分析未完成。(2)分类模型评价指标实验需回顾。目录前言一、对数几率回归模型1、分类任务(1)分类任务概述(2)两类分类任务2、对数几率回归模型(1)Sigmoid 函数(2)对数几率回归模型二、对数几率回归的损失函数1、0/1损失2、交叉熵损失3、对数几率回归模型的目标函数(1)对数几率回归模型的目标函数(2)对数几率回归中正则化的必要性三、对数几率回归的优化求解1、梯度下降求解(1)目标函数形式(2)损失函数梯度(3)Hessian矩阵正定——逻辑回归极小值是最小值。
2024-11-21 16:05:01
1245
原创 【机器学习chp5】线性回归
本文遗留问题:(1)第七部分案例分析未完成。(2)回归任务的性能指标评价还只是很简单的理解,自我还没能力高效地得到回归任务进行性能指标。(3)线性回归优化算法中的坐标轴下降理解不够深入目录前言一、回归任务简介二、线性回归模型三、回归任务的损失函数1、L2损失函数(1)定义(2)L2损失函数的概率解释(3)残差分布2、胡伯(Huber)损失函数(1)Huber损失函数的定义(2)Huber损失的优缺点(3)与L1和L2损失的对比(4)Huber损失的图示理解。
2024-11-20 02:09:28
1018
原创 【机器学习chp4】特征工程
特征工程是原始数据与学习器的连接器。在解决问题时,首先进行数据探索(不属于特征工程的范畴),根据原始数据的特性初步确定学习器的类型,原始数据可能不能直接输入到学习器(例如字符串类型数据不能直接送入到线性分类模型)。然后要进行数据预处理,让数据更符合模型的输入类型或更适合所选择的模型,例如让数值型数据规范化或非数值型数据数值化等。数据处理完成后就要进行特征的选择,如果你是专家,一定情况下可以自己构造特征,但跟一般的情况是从数据中抽取特征,很多数据直接提供的特征的维度都是很高的,例如图像数据的
2024-11-19 00:29:32
783
原创 【机器学习chp3】判别式分类器:线性判别函数、线性分类器、广义线性分类器、分段线性分类器
在线性分类问题中,我们可以通过一个线性判别函数来划分样本属于不同的类别。对于一个二维空间的两类分类问题,线性判别函数可以表示为:其中,是样本的特征向量, 和是特征的权重,是偏置项。通过对的符号来划分类别:i、如果,则分类为ii、如果,则分类为线性分类器是一种用于将数据样本分为不同类别的分类模型,其目标是在样本空间中找到一个超平面,将不同类别的数据分开。具体来说,对于给定的样本集,线性分类器试图确定一个线性判别函数:其中,是输入特征向量,是待求的参数向量。
2024-11-17 02:07:17
967
原创 【机器学习chp2】贝叶斯最优分类器、概率密度函数的参数估计、朴素贝叶斯分类器、高斯判别分析。万字超详细分析总结与思考
本文的《一》《二》属于两个单独的知识点:共轭先验和Laplace平滑,主要因为他们在本文的后续部分经常使用,又因为他们是本人的知识盲点,所以先对这两个知识进行了分析,后续内容按照标题中的顺序依次进行,观看时可以先跳过《一》《二》,后文遇到相关共轭先验和Laplace平滑的知识再回头看他们。另一个更重要的点是,本文用到了大量gpt的分析,部分我添加了我的理解并进行重要标注,还有一部分我想优化gpt的回答,但鄙人不才,gpt的分析太好了,条理清晰又通俗易懂,我改不了就直接放上去了。
2024-11-13 23:04:08
1046
原创 【王木头】最大似然估计、最大后验估计
本质区别最大似然估计MLE只依赖数据的似然,不使用先验,是一种频率派的估计方法。最大后验估计MAP同时考虑数据的似然和参数的先验信息,是一种贝叶斯派的估计方法。总结公式最大似然估计MLE最大后验估计MAP在有先验信息的情况下,MAP 能够更好地利用先验信息对估计进行约束,而 MLE 则完全依赖观测数据。t=O83At=O83AX%5Ctheta%5Cthetap%28X%29贝叶斯解释“L1和L2正则化”,本质上是最大后验估计。如何深入理解贝叶斯公式?
2024-11-11 01:49:22
779
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人