- 博客(25)
- 收藏
- 关注
原创 Embedding类与word2vec模型
CBOW(Continuous Bag-of-Words)模型和 Skip - gram 模型是 Word2Vec 算法中用于学习词向量的两种核心架构,下面将从原理、结构、优缺点和适用场景等方面对它们进行详细介绍。
2025-03-21 16:58:44
927
原创 resnet与densenet的比较
Batch Normalization(BN)是深度学习中常用的一种技术,用于加速网络训练和提高模型的稳定性。在池化层前后使用 BN 会产生不同的效果,下面从原理、对特征的影响以及实际应用等方面详细分析它们的区别。ResNet(残差网络)和 DenseNet(密集连接网络)都是深度学习中非常经典的卷积神经网络架构,它们在图像分类、目标检测等诸多视觉任务中表现出色。
2025-03-20 23:36:18
982
原创 支持向量机
核函数的选择直接影响 SVM 的性能,需结合数据特性、计算成本和领域知识综合决策。实验表明,RBF 核在多数场景下表现稳健,但线性核在高维稀疏数据中往往更高效。
2025-03-19 23:39:50
1138
1
原创 自适应二值化及伪影
自适应二值化通过局部阈值解决全局阈值的局限性,适用于光照不均、对比度差异大的场景。选择方法时需权衡计算复杂度、调参难度和场景需求。实际应用中,常结合预处理(如降噪)和后处理(如形态学操作)提升效果。
2025-03-15 00:09:06
1226
原创 OTSU算法(大津算法)
Otsu 算法通过最大化类间方差自动确定全局阈值,是图像二值化的经典方法。其核心优势在于无需人工干预,但需图像直方图呈现双峰特性。实际应用中需结合预处理或其他方法以应对复杂场景。Otsu 算法(大津算法)是一种经典的图像二值化方法,其核心是通过最大化类间方差自动确定全局阈值。假设图像由前景(目标)和背景两部分组成,且两者的灰度分布存在明显差异(直方图呈现双峰)。Otsu 算法通过寻找一个阈值,使得。,从而将图像分割为二值图。,即为 Otsu 阈值。
2025-03-14 21:37:04
913
原创 卷积神经网络可视化
卷积神经网络(CNN)的可视化是理解模型行为、调试性能和解释预测结果的重要工具。通过合理使用可视化技术,可显著提升 CNN 模型的可解释性和性能,尤其在医疗、自动驾驶等对安全性要求高的领域具有重要价值。
2025-03-13 23:59:13
1694
3
原创 卷积神经网络(笔记03)
自适应池化(Adaptive Pooling)是一种在深度学习中用于处理可变尺寸输入的池化技术。它允许用户指定输出特征图的尺寸,而无需手动设置池化窗口的大小、步幅或填充。自适应池化会根据输入特征图的尺寸和目标输出尺寸,自动计算最优的池化参数,从而将任意大小的输入转换为固定尺寸的输出。这一特性使得模型能够灵活处理不同尺寸的输入数据,避免了传统池化对固定输入尺寸的依赖。自适应池化通过动态调整池化策略,解决了传统池化对固定输入尺寸的依赖,提升了模型的灵活性和适应性。
2025-03-13 23:45:25
974
原创 卷积神经网络(笔记02)
机制作用防止过拟合的效果空间下采样减少参数数量,降低模型复杂度✅ 直接降低过拟合风险特征抽象与平滑抑制局部噪声,增强泛化能力✅ 减少对训练数据噪声的依赖平移不变性允许输入微小变化不影响输出✅ 提升模型对未知数据的适应性池化层通过降维和特征聚合,在保持关键信息的同时有效缓解过拟合,是卷积神经网络的核心组件之一。
2025-03-12 12:49:26
1151
原创 梯度下降法
批量梯度下降的基本思想是在每个迭代步骤中使用来计算损失函数的梯度,并据此更新模型参数,这使得更新方向更加准确。假设我们有一个包含 ( m ) 个训练样本的数据集,其中 x^{(i)} 是输入特征,是对应的标签。我们的目标是最小化损失函数 J(\theta) 相对于模型参数 \theta 的值。损失函数可以定义为:其中是模型对第 i 个样本的预测输出。批量梯度下降的更新规则为:(其中 n 是特征的数量),并且 \alpha 是学习率。
2025-03-03 19:55:13
917
原创 最小二乘法与梯度下降(原理)
损失函数矩阵形式: 令导数loss'=0 ,可解得: API : 二、梯度下降法正规方程是一种用于求解线性回归模型参数的方法,它通过直接求解使误差平方和最小化的参数值来拟合数据。以下是其优缺点:1、Random随机数生成初始W,随机生成一组成正太分布的数值,这个随机是成正太分布的2、求梯度g,梯度代表曲线某点上的切线的斜率,沿着切线往下就相当于沿着坡度最陡峭的方向下降.3、if g < 0,w变大,if g >0,w变小(目标左边是斜率为负右边为正 )4、判断是否收敛,如果收敛跳出迭代,如果没有
2025-02-26 23:27:11
1115
原创 决策树-分类
1、决策节点 通过条件判断而进行分支选择的节点。如:将某个样本中的属性值(特征值)与决策节点上的值进行比较,从而判断它的流向。2、叶子节点 没有子节点的节点,表示最终的决策结果。3、决策树的深度 所有节点的最大层次数。决策树具有一定的层次结构,根节点的层次数定为0,从下面开始每一层子节点层次数增加。
2025-02-26 15:29:18
1008
原创 朴素贝叶斯分类
某些事件或特征可能从未出现过,这会导致它们的概率被估计为零。然而,在实际应用中,即使某个事件或特征没有出现在训练集中,也不能完全排除它在未来样本中出现的可能性。通过这种方法,即使某个特征在训练集中从未出现过,它的概率也不会被估计为零,而是会被赋予一个很小但非零的值,从而避免了模型在面对新数据时可能出现的过拟合或预测错误。P(X) 是观测到特征向量 X 的边缘概率,通常作为归一化常数处理。P(X|a) 是给定类别 ( a ) 下观测到特征向量。P(a) 是类别 a 的先验概率;
2025-02-25 22:32:43
759
原创 机器学习(模型的保存和加载)
对于模型,推荐使用joblib进行保存和加载,尤其是处理大型numpy数组时。pickle是 Python 内置的通用序列化工具,也可以用于保存和加载模型。对于TensorFlow深度学习模型,可以使用方法保存为.h5文件,使用方法加载模型。
2025-02-25 20:21:39
374
原创 机器学习02
分层 k - 折交叉验证(Stratified k - fold cross validation)是对普通 k - 折交叉验证的改进,在划分数据集时会考虑样本的类别分布,确保每个折(子集)中各类别样本的比例与原始数据集中的比例一致。具体做法是每次只留一个样本作为验证集,其余 个样本作为训练集,重复 次,最终得到 个模型评估结果,取平均值作为最终的评估指标。例如,前 个时间点的数据作为训练集,接下来的 个时间点的数据作为验证集,逐步向前移动,直到覆盖整个时间序列。
2025-02-25 19:41:49
1342
原创 机器学习01
特征提取(如果不是像dataframe那样的数据,要进行特征提取,比如字典特征提取,文本特征提取)无量纲化(预处理)归一化标准化降维底方差过滤特征选择主成分分析-PCA降维。
2025-02-24 22:09:42
1186
原创 控制鼠标及图像预处理(一)
是 OpenCV 提供的一个非常有用的函数,它允许用户定义一个回调函数,当鼠标事件发生时(如点击、释放、移动等),该回调函数会被调用。这在创建交互式应用程序时特别有用,比如图像标注工具、绘图程序等。代码解释event: 鼠标事件类型,如表示左键按下。xy: 鼠标事件发生时的坐标。flags: 额外的标志位,通常不用。param: 传递给回调函数的参数,通常不用。设置鼠标回调函数,当在 'image' 窗口中发生鼠标事件时,调用函数。
2025-02-18 23:39:27
1004
原创 OpenCV图像基础
OpenCV其实就是一堆C和C++语言的源代码文件,这些源代码文件中实现了许多常用的计算机视觉算法。OpenCV的全称是Open Source Computer Vision Library,是一个开放源代码的计算机视觉库OpenCV最初由英特尔公司发起并开发,以BSD许可证授权发行,可以在商业和研究领域中免费使用,现在美国Willow Garage为OpenCV提供主要的支持OpenCV可用于开发实时的图像处理,计算机视觉以及模式识别程序,目前在工业界以及科研领域广泛采用。
2025-02-17 22:43:03
1272
原创 git的介绍及常用操作
本地工作目录是你在计算机上实际进行文件编辑和开发的地方,也就是你打开编辑器编写代码、修改文件的目录。它是从远程仓库克隆下来的代码副本,或者是你通过。
2025-02-12 14:55:42
949
原创 pandas总结(续)
重置索引(reindex)可以更改原 DataFrame 的行标签或列标签,并使更改后的行、列标签与 DataFrame 中的数据逐一匹配。reindex_like 方法用于将一个 DataFrame 或 Series 的索引重新排列,使其与另一个 DataFrame 或 Series 的索引相匹配。如果在重新索引的过程中,新的索引与原始索引不完全匹配,那么不匹配的位置将会被填充为 NaN 值。'right':右连接,返回右侧 DataFrame 的所有键,以及左侧 DataFrame 匹配的键。
2025-02-11 22:40:52
699
原创 pandas要点总结(基础)
Pandas 是一个开源的第三方 Python 库,从 Numpy 和 Matplotlib 的基础上构建而来Pandas 名字衍生自术语 "panel data"(面板数据)和 "Python data analysis"(Python 数据分析)Pandas 已经成为 Python 数据分析的必备高级工具,它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具Pandas 是 Python 语言的一个扩展程序库,用于数据分析。
2025-02-10 23:13:34
722
原创 numpy要点总结
numpy库与python的基础语法有细微的区别,但大致上是一致的NumPy(Numerical Python)是 Python 中一个基础且强大的科学计算库,为 Python 提供了高效的多维数组对象以及处理这些数组的工具。 numpy数组与python列表区别: NumPy 数组是同质数据类型(homogeneous),即数组中的所有元素必须是相同的数据类型。数据类型在创建数组时指定,并且数组中的所有元素都必须是该类型 Python 列表是异质数据类型(heterogeneo
2025-02-07 17:09:29
1080
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人