- 博客(43)
- 收藏
- 关注
原创 深度学习零碎知识
激活函数帮助神经网络提取不同层次的特征。如果没有激活函数,神经网络只是多个线性变换的叠加,整体仍然是一个线性模型。通过激活函数,神经网络可以表示复杂的非线性函数,从而解决更复杂的任务。深层网络可以用更少的参数学习到更复杂的特征。相比之下,单层网络需要大量神经元才能达到类似的效果,导致参数冗余和计算浪费。,从而使神经网络能够学习复杂的函数关系。在实际应用中,单层网络可能需要非常多的神经元才能达到较好的效果。激活函数可以控制神经元的输出范围,使其符合任务需求。就可以最大化似然函数,最大可能找到正确的模型。
2025-03-18 16:51:01
814
原创 深度学习知识:softlabel策略
根据目标值 y 的位置,为每个区间分配一个概率值。例如:如果 y=0.7,它更接近区间 3,因此可以定义 Soft 标签为 q=[0.1,0.2,0.7]。
2025-03-13 20:19:45
861
原创 深度学习基础:线性代数本质5——行列式
我们注意到,有一些变换在结果上拉伸了整个网格,有一些则是压缩了,那如何度量这种压缩和拉伸呢?或者换一种更容易思考的表达,某一块面积的缩放比例是多少?其实,根据我们之前讲的基向量,我们只需要知道i帽和j帽组成的面积为1的正方形面积缩放了多少。所以行列式就是这个特殊的缩放比例,即线性变换对面积产生改变的比例。比如说一个线性变换的行列式为6,那么就算是它将一个区域的面积增加为原来的6倍特别的,我们可以发现,如果一个矩阵的行列式为0,意味着它把这个空间降维了(例如原本二维的变为了一维的线了),并且矩阵的。
2025-03-12 11:42:46
438
原创 深度学习基础:线性代数的本质1——深入理解向量
从几何方面思考向量,当遇到向量时,首先考虑一个箭头以及落在某个坐标系中,比如x-y平面,并且箭头起点为原点,这里和物理学角度的不同,向量可以在空间中如何位置落脚(起点),但是在线性代数中向量(通常以坐标系中的原点为起点)把每个向量看作一种特定的运动,及在空间中朝着某个方向迈出一定的,先按v的运动方式运动,然后按照w的运动方式运动,总体运动效果与沿着这两个向量的和运动无异。,等于将向量中的各个元素(分量)分别进行缩放。平移向量使向量首尾相连,则向量相加的结果是第一个向量的起点到最后一个向量的终点。
2025-03-11 22:00:55
826
原创 DeepGEM模型
这篇论文讨论了使用深度学习技术,基于组织学图像来预测肺癌基因突变的研究。以下是主要内容的总结和讲解:### 研究背景肺癌是全球范围内导致癌症死亡的主要原因之一。准确检测和识别特定基因突变对于指导个性化治疗至关重要。近年来,随着计算机视觉和深度学习技术的发展,利用组织学图像进行基因突变预测成为了一个热门研究领域。### 数据集和参与者特征该研究汇总了来自16个医疗中心的数据,包括内部数据集(n=1716)、外部数据集(n=1718)以及淋巴结转移数据集(n=203)。
2025-02-07 15:51:27
684
原创 机器学习基础-线性回归和逻辑回归
基本概念和定义线性回归中的最小二乘法和梯度下降法数据归一化方法过拟合和欠拟合的概念及处理方法激活函数SIGMOD表示及特点线性回归和逻辑回归的异同
2025-01-06 12:13:34
806
原创 机器学习基础-概率图模型
(一阶)马尔科夫模型的基本概念状态转移矩阵的基本概念隐马尔可夫模型(HMM)的基本概念条件随机场(CRF)的基本概念HMM和CRF的比较主题模型(Topic Model)的基本概念
2025-01-05 21:57:05
464
原创 机器学习基础-大语言模型
大语言模型的基本概念“大”体现在什么地方?预训练+微调两阶段的基本流程和作用;BERT模型中MLM和NSP机制基本概念;Prompt提示学习的基本概念;思维链提示(Chain-of-Thought Prompting)的基本概念;模型蒸馏的基本概念;多模态的基本概念
2025-01-04 21:20:05
954
原创 Transformer从零详细解读——DASOU讲AI
transformer的任务是什么?进一步细化进一步细化,注意:每个encoder结构相同,参数不同;
2025-01-02 21:17:38
885
原创 李宏毅机器学习笔记-Transformer
Transformer 中的每个 Block 结构较为复杂,不仅包括 self-attention 层和全连接(FC)层,还结合了 residual connections 和 layer normalization 技术,以提高模型性能和训练稳定性。
2025-01-01 22:31:56
1419
原创 李宏毅机器学习笔记-自注意力机制(self-attention)
I 是self -attention 的input,一串vector;self-attention 的运作机制其实就是一连串的矩阵乘法。在这一系列矩阵中,只有矩阵W q , W k , W v 是未知的,是需要通过训练学习的参数。
2024-12-30 21:32:34
1080
原创 机器学习基础-神经网络与深度学习
多层前馈网络MLP的基本结构BP算法的基本原理局部极小值和全局极小值,如何跳出局部极小值如何缓解过拟合卷积神经网络的基本概念卷积和下采样的概念和方法循环网络的基本结构,梯度消失和梯度爆炸产生的原因LSTM的结构,三个门的作用循环网络模型解决翻译问题的弊端注意力机制的基本概念和方法Transformer中的自注意力机制(Q,K,V矩阵的作用)Transformer中编码器-解码器结构工作基本流程
2024-12-29 22:18:41
954
原创 优化器介绍——SGD和Adam
在SGD中,模型的参数向负梯度方向更新,使得损失函数的值逐渐减少。具体来说,每个训练样本的误差对每个参数的偏导数被计算,并且应用于参数的当前值以更新它。在迭代过程中,每次更新后,下一个样本的误差被计算,参数再次更新。Adam(Adaptive Moment Estimation)是一种自适应学习率的优化算法,是在动量梯度下降和自适应学习率算法的基础上发展而来的。总的来说,Adam算法是一种高效、自适应的优化算法,在各类深度学习问题中表现出色,被广泛应用。能够处理稀疏梯度,对参数的更新不受梯度的大小影响。
2024-12-13 02:05:11
612
1
原创 李宏毅机器学习-批次 (batch)和动量(momentum)
在没有平行运算的情况下,Small Batch比 Large Batch更有效率;在有平行运算的情况下,Small Batch与Large Batch运算时间没有太大差距,除非大的超出一定界限;在一个epoch时间内,Large Batch比Small Batch更快,Large Batch更有效率;Small Batch比较陡,Large Batch比较稳定;比较noisy的batch size比比较stable 的batch size在训练和测试时占有优势。
2024-12-11 21:23:11
1005
2
原创 李宏毅机器学习-局部最小值与鞍点
其实局部最小点(local minima)并没有那么常见,大多数情况下,卡在一个鞍点(saddle point)。
2024-12-11 20:09:43
496
原创 李宏毅机器学习深度学习:机器学习任务攻略
训练集如果loss很低,但测试集loss高,且不太可能是mismatch的情况,说明很可能是过拟合。方法:validation 数据集划分(N-flod Cross法划分, “交叉验证”取平均值)介绍了当我们遇到模型效果(loss)不理想时,进行模型优化的分析方法和思路。训练集如果loss很低,但测试集loss高,则可以分析 训练集和测试集的区别。加了神经元,没有优化效果:加了神经元,训练集和测试集的loss依然很高。- 训练集和测试集 统计学数据分布不匹配(mismatch)
2024-12-08 18:41:51
537
原创 李宏毅深度学习-Pytorch Tutorial2
张量(Tensor)是深度学习和机器学习中一个非常基础且重要的概念。在数学上,张量可以被看作是向量和矩阵的泛化。简单来说,张量是一种,它可以表示标量(0维)、向量(1维)、矩阵(2维)以及更高维度的数据结构。
2024-12-03 12:18:58
565
1
原创 PyTorch基础
如何在Windows中查看显卡型号、CUDA简介、管理Python环境、Jupyter Notebook的安装与配置、PyTorch数据加载入门
2024-12-02 14:05:51
930
原创 李宏毅机器学习/深度学习—机器学习基本概念
函数的类型、如何寻找函数、定义含未知参数的函数、定义一个损失函数(Loss)、优化 Optimization梯度下降 Gradient Descent
2024-11-27 18:18:59
921
原创 李宏毅机器学习/深度学习概述
机器学习就是在寻找函数。主要方法包括监督学习、自监督学习、生成对抗网络(GANs,无监督学习方法)和强化学习(通过与环境的交互学习最优行为策略)。此外,还需要关注异常检测、可解释AI、模型攻击、领域自适应、网络压缩、终身学习和元学习等重要领域。
2024-11-26 09:33:14
393
原创 机器学习基础-降维
降维的基本概念(原因、作用、优缺点)特征选择的概念和方法主成分分析(PCA)的基本概念和方法基于特征值分解协方差矩阵实现PCA算法的基本流程
2024-11-25 10:08:10
1052
原创 机器学习基础-聚类
无监督学习的概念,和有监督学习的区别 K-means算法的基本概念,优缺点 掌握K-means算法的计算流程 密度聚类-DBSCAN、层次聚类的基本概念和方法
2024-11-24 18:49:30
718
原创 机器学习基础-仿生(群体)智能计算方法
全局优化的基本概念仿生(群体)智能计算方法的特点适应度函数的概念和定义遗传算法的基本流程(选择,交叉,变异)粒子群(鸟群)算法的基本概念,速度更新方法
2024-11-18 20:30:41
881
原创 机器学习基础-误差分析和模型评估
数据集的划分(训练集,验证集,测试集)交叉验证不平衡数据的处理掌握模型评价指标的计算方法:accuracy,precision,recall,F1
2024-11-18 10:34:01
801
原创 机器学习基础-监督学习:支持向量机
SVC的基本概念超平面、支持向量、边界可以解决分类问题SVC,回归问题SVR核函数(核技巧)的定义/作用过拟合硬间隔、软间隔(调参C,发生过拟合后如何调整参数C)不同核函数的调参(重点掌握多项式核和高斯核)如果SVR模型发生过拟合,可以调高 ε
2024-10-15 15:21:43
813
原创 机器学习基础-线性模型:线性回归(LR)、逻辑回归、多分类问题、过拟合和正则化(岭回归、Lasso回归)、特征缩放( 最小-最大规范化、 Z-score标准化)
在实践中使用非常广泛´利用输入样本特征的线性函数 / 线性组合进行结果预测´回归问题:线性回归´分类问题:逻辑回归
2024-10-15 11:54:06
827
原创 计算机网络期末总复习
定义是一个将地理位置不同的、具有独立功能的计算机系统,通过通信线路连接起来,由功能完善的软件实现⭐️资源共享和信息传递的系统。
2024-05-05 21:57:26
2459
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人