- 博客(49)
- 收藏
- 关注
原创 TensorBoard
涵盖安装、基础操作和高级功能,帮助你高效监控和可视化模型训练过程。掌握这些操作,你可以轻松实现训练过程的可视化与深度分析!(或远程服务器IP:端口)。
2025-04-05 15:25:37
250
原创 Softmax 函数中维度如何选择?
确保每个独立样本(如一个数据点、一个像素、一个时间步)的类别概率和为1。通常,该维度是张量的最后一个维度或显式指定的类别维度。在应用softmax函数时,维度的确定取决于输入张量的形状以及你希望哪个维度上的元素经过归一化后和为1。)上对输入进行归一化,使得该维度上的元素和为1。),常见于图像分割,每个像素点的通道(类别)概率和为1。),每个时间步(或序列位置)的类别概率和为1。,确保每个样本的类别概率形成一个有效的分布。:确定softmax维度的核心是明确。),每个样本的类别概率和为1。
2025-03-31 16:38:31
348
原创 是否每一层之间都要线性变换和激活函数?
通过跳跃连接(Skip Connection)将输入直接传递到后续层,此时某些层可能仅包含激活函数或线性变换,而非两者都需要。在Transformer中,注意力层的输出可能直接传递到下一层,不立即应用激活函数。:认为所有层都必须包含线性变换和激活函数。
2025-03-30 18:14:20
465
原创 torch.mv 用法
优先使用场景:当明确第二个操作数是1D向量时,torch.mv是最高效的选择灵活性需求:需要处理混合维度时改用调试技巧:使用确保维度匹配。
2025-03-29 16:16:36
378
原创 Pytorch :维度转化
这些方法能帮你在PyTorch里灵活地进行维度转换。实际使用时,要依据具体需求选择合适的方法。方法能够对张量的形状进行重塑,不过要保证重塑前后元素总数相同。方法功能类似,也用于重塑张量形状,但。更灵活,即使原张量不连续也能使用。方法可以交换张量的两个指定维度。方法能对张量的所有维度进行重排。
2025-03-26 16:07:14
413
原创 如何提升大模型的训练效率deepspeed 和 flash attition
【代码】如何提升大模型的训练效率deepspeed 和 flash attition。
2025-03-23 14:32:22
653
原创 【无标题】
∇θJθ∂J∂θ1∂J∂θ2∇θJθ∂θ1∂J∂θ2∂J$ J(\theta) $:损失函数(如交叉熵、均方误差)$ \theta $:模型参数(权重矩阵、偏置项等)
2025-03-22 22:22:39
910
原创 大模型微调
LoRA(Low-Rank Adaptation):通过低秩矩阵分解调整部分参数,减少计算量。梯度检查点(Gradient Checkpointing):用时间换空间,减少显存占用。优化器选择:AdamW、LAMB(适合大模型)、8-bit Adam(节省显存)。评价指标:ROUGE(文本生成)、BLEU(翻译)、准确率/F1(分类)。Megatron-LM(NVIDIA):专为大规模模型训练优化。早停(Early Stopping):根据验证集性能终止训练。
2025-03-22 21:14:59
387
原创 conda 常用命令
conda env create -f 文件名.yml` :从文件创建环境。conda remove --name 环境名 --all` :删除环境。conda install -c 频道名 包名` :从指定频道安装。conda create --name 环境名` :创建新环境。conda update conda :更新 Conda。conda activate 环境名` :激活环境。conda info --envs :列出环境信息。conda info :显示 Conda 信息。
2025-03-20 13:34:18
340
原创 Neo4j 图数据库教程
5. 访问浏览器界面:打开浏览器,访问 [http://localhost:7474](http://localhost:7474),使用默认用户名和密码(neo4j)登录。*配置缓存大小 :修改 Neo4j 的配置文件 `neo4j.conf` 中的 `dbms.memory.pagecache.size` 参数。` ,其中 `n` 和 `m` 是已存在的节点。备份数据库 :使用 `neo4j-admin dump --database=graph.db --to=backup_path` 命令。
2025-03-16 15:31:38
586
原创 torch.unsqueeze:灵活调整张量维度的利器
在深度学习框架PyTorch中,张量(Tensor)是最基本的数据结构,它类似于NumPy中的数组,但可以在GPU上运行。在日常的深度学习编程中,我们经常需要调整张量的维度以适应不同的操作和层。函数就是PyTorch提供的一个非常有用的工具,用于在指定位置增加张量的维度。本文将详细介绍的用法和一些实际应用场景。函数的作用是在张量的指定位置插入一个维度,其大小为1。这个操作不会改变原始数据的内容,只是改变了数据的形状(shape)。这个函数的签名如下:torch.unsqueeze(input, dim, *
2024-12-22 18:38:27
710
原创 深度学习中的注意力机制:解锁智能模型的新视角
然而,随着数据量的激增和任务的复杂化,传统的深度学习模型面临着效率和性能的双重挑战。在这样的背景下,注意力机制(Attention Mechanism)应运而生,它不仅提升了模型的处理能力,还为深度学习领域带来了新的研究视角。注意力机制已经成为深度学习领域的一个重要分支,它不仅提升了模型的性能,还为人工智能的发展提供了新的思路。3. 语音识别与合成:在语音识别和合成中,注意力机制有助于模型更好地理解语音信号的时序信息,提高了识别的准确率和合成的自然度。随着研究的深入,注意力机制正在不断进化。
2024-12-20 21:55:14
534
原创 多层感知机
多层感知机(MLP)的另一个常见名字是“前馈神经网络”(Feedforward Neural Network,FNN)。这种网络结构中,信息只在一个方向上流动,即从输入层到隐藏层,再从隐藏层到输出层,没有反向的连接。这种单向流动的特性使得前馈神经网络在训练和推理时相对简单,也便于并行处理。
2024-12-15 21:22:20
134
原创 学习率调节器:深度学习训练中的关键技术
学习率调节器(Learning Rate Schedulers)是一系列用于动态调整学习率的策略,它们可以帮助模型更快地收敛,提高训练效率,并最终达到更好的性能。一个合适的学习率可以加速训练过程,而一个过大或过小的学习率都可能导致训练效率低下或模型性能不佳。随着深度学习技术的不断发展,新的学习率调节器策略也在不断涌现,为深度学习模型的训练提供了更多的选择。例如,在图像识别任务中,可能需要一个较大的初始学习率来快速收敛,而在自然语言处理任务中,则可能需要一个较小的学习率来避免梯度爆炸。
2024-12-07 15:58:19
626
原创 模型保存与加载:PyTorch中的实践指南
在深度学习项目中,模型的保存和加载是一个至关重要的步骤。它不仅有助于在训练过程中保存进度,还可以在训练完成后部署模型。PyTorch提供了灵活的方式来保存和加载模型,本文将详细介绍这些方法。
2024-12-06 18:51:34
780
原创 Dropout: 一种减少神经网络过拟合的技术
Dropout是一种正则化技术,由Hinton和他的学生在2012年提出。它通过在训练过程中随机“丢弃”(即暂时移除)网络中的一些神经元(及其连接),来减少模型对训练数据的依赖,从而提高模型的泛化能力。
2024-12-06 18:38:21
2141
原创 自监督学习:解锁无监督数据的潜力
自监督学习(Self-Supervised Learning, SSL)是近年来机器学习领域的一个重要发展方向,它通过设计预训练任务,从大量未标注数据中学习有用的特征表示。本文将详细介绍自监督学习的核心概念、主要方法、典型应用,以及未来的研究方向。自监督学习是一种特殊形式的无监督学习,它通过数据本身生成标签,将学习任务转化为预测任务。自监督学习的崛起得益于数据的丰富性、标注成本的高昂以及强大的特征学习能力。随着研究的深入,自监督学习有望在多个领域发挥更大的作用,推动人工智能技术的发展。
2024-12-05 11:48:28
536
原创 自然语言处理中的主动学习:提高效率与性能的关键
自然语言处理(NLP)是人工智能领域的一个重要分支,它涉及到机器理解、解释和生成人类语言的能力。主动学习作为一种有效的策略,可以在有限的标注资源下提高模型的泛化能力和性能。主动学习为NLP领域带来了新的机遇,它不仅能够减少标注成本,还能提高模型的性能和适应性。随着研究的深入,主动学习有望在NLP中发挥更大的作用,推动人工智能技术的发展。主动学习是一种机器学习方法,它允许模型在训练过程中主动选择一部分样本进行标注,以改善模型的泛化能力。近年来,主动学习在NLP领域的研究进展迅速。
2024-12-05 11:26:49
760
原创 理解上游任务和下游任务:人工智能中的数据处理流程
上游任务通常指的是那些为下游任务提供输入或基础数据的任务。这些任务的输出是下游任务的输入。数据预处理:在机器学习中,上游任务可能涉及到数据的清洗、标准化、特征提取等,为模型训练提供准备好的数据。特征生成:在自然语言处理中,上游任务可能是将原始文本转换为模型可以理解的数值表示,比如词嵌入(Word Embeddings)。模型训练:在某些情况下,一个模型的训练可以被视为另一个更复杂模型的上游任务,因为前者的输出(比如中间层的特征)可以作为后者的输入。下游任务则是依赖于上游任务输出的任务。
2024-12-04 23:12:35
997
原创 经典算法分类
1. 监督学习算法线性回归(Linear Regression):用于连续数值预测。 逻辑回归(Logistic Regression):用于二分类问题。 决策树(Decision Trees):基于树结构的简单模型,用于分类和回归。 随机森林(Random Forest):集成多个决策树以提高预测准确性。 支持向量机(SVM, Support Vector Machine):最大间隔分类器,适用于二分类和回归问题。 K最近邻(K-Nearest Neighbors, KNN):基于邻近点的分
2024-11-30 14:55:27
316
原创 深度学习 : 经典算法
LSTM是RNN的一种变体,通过引入门控机制(输入门、遗忘门、输出门)解决了传统RNN的梯度消失问题。生成器生成新的数据实例,判别器判断数据是真实的还是生成的。GRU是另一种RNN的变体,它简化了LSTM的结构,将遗忘门和输入门合并为一个更新门,并引入重置门。VAE是一种生成模型,它通过编码器将数据编码为潜在空间的表示,然后通过解码器生成新的数据。深度学习算法的探索和应用是人工智能领域的一个重要分支,随着技术的不断进步,这些算法也在不断地被改进和优化,以适应更多的应用场景和解决更复杂的问题。
2024-11-28 22:00:25
400
原创 kaggle注册没有人机验证??不需要插件!全网最简单的办法
edge浏览器先搜索Google,用Google进入kaggle官网! 完结!亲测有效,已完成注册!!!
2024-11-21 00:19:32
517
1
原创 NLP怎么入门?如何规划?学哪些?
• 学习常用的NLP工具包,如NLTK(Natural Language Toolkit)和spaCy,并掌握它们的基本用法。通过以上学习路线,你可以系统地从NLP的基础知识学起,逐步深入到高级技术和实践项目中,最终成为NLP领域的专家。• 学习深度学习的基本原理和常用模型,如神经网络、卷积神经网络(CNN)、循环神经网络(RNN)等。• 掌握如何使用预训练的词向量模型,并了解词向量在NLP任务中的应用。• 阅读NLP领域的最新研究论文,关注NLP领域的前沿技术和趋势。
2024-11-19 01:10:17
361
原创 大学生 算法编程竞赛汇总
• 第三届大学生算法大赛:这是一个面向所有在校大学生及研究生的算法竞赛,采用ACM赛制,支持C、C++、Java、Python四种编程语言。• CCF算法能力大赛(CACC):由中国计算机学会主办的算法竞赛,主要考察基础算法、专业算法、工程算法,旨在提升参赛选手的编程、算法设计、建模及应用算法解决实际问题的能力。• 全国高校计算机能力挑战赛:这个竞赛包括大数据算法赛、人工智能算法赛、Office高级算法赛、程序设计赛等多个项目,全日制高等院校在校本、专科大学生均可参赛。
2024-11-19 01:03:01
1330
原创 过河卒问题求解
棋盘上 A点有一个过河卒,需要走到目标 BB点。卒行走的规则:可以向下、或者向右。同时在棋盘上 C 点有一个对方的马,该马所在的点和所有跳跃一步可达的点称为对方马的控制点。因此称之为“马拦过河卒”。棋盘用坐标表示,AA点 (0,0)、B 点 (n,m),同样马的位置坐标是需要给出的。现在要求你计算出卒从 AA 点能够到达 BB 点的路径的条数,假设马的位置是固定不动的,并不是卒走一步马走一步。
2024-11-19 00:37:53
420
原创 c语言中*的作用
是一个指向整型数据的指针。在C语言中,指针提供了一种间接访问和操作内存的能力,这是C语言强大灵活性的来源之一。是一个具体的整型变量,而。
2024-11-16 14:41:32
463
原创 文本数据增强:提高模型性能的利器
通过上述代码示例,我们展示了如何使用同义词替换、随机插入、随机删除和随机交换等方法进行文本数据增强。这些技术可以帮助我们在数据量有限的情况下提高模型的性能和泛化能力。
2024-11-15 22:39:20
497
原创 n-gram特征和文本长度规范
通过上述代码示例,我们展示了如何使用提取 n-gram 特征,并使用进行文本长度规范化。这些技术可以帮助我们在处理文本数据时更好地捕捉局部结构信息和处理不同长度的文本。希望这些示例对你有所帮助!
2024-11-15 22:12:23
458
原创 词云:文本数据的视觉盛宴
词云,作为一种独特的数据可视化工具,它将文本数据中的关键词以不同大小、颜色和形状呈现出来,直观地展示了文本中词汇的频率和重要性。本文将带你了解词云的制作工具、应用场景以及如何制作一个词云。
2024-11-15 18:24:54
271
原创 文本数据分析:探索句子长度分布
在自然语言处理(NLP)项目中,文本数据分析是一个关键步骤,它帮助我们理解数据集的特性并指导后续的处理和模型训练。句子长度分布是文本数据分析中的一个重要方面,它影响着模型的设计和性能。本文将介绍如何分析句子长度分布,并展示其在实际数据集中的表现。
2024-11-15 18:13:54
354
原创 文本数据分析:标签数量分布
在自然语言处理(NLP)和机器学习项目中,文本数据分析是一个关键步骤。了解数据集中标签的数量分布对于评估数据集的平衡性和模型训练的有效性至关重要。本文将介绍如何使用Python进行标签数量分布的分析,并解释其重要性。
2024-11-15 18:08:28
374
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人