自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 收藏
  • 关注

原创 从 mgf格式 到 intensity vector 的转换

【代码】从 mgf格式 到 intensity vector 的转换。

2025-04-09 22:12:42 101

原创 An effective algorithm for peptide de novo sequencing from MS/MS spectra

前缀 A 和后缀 A' 之间的合理关系。

2025-03-16 21:54:19 595

原创 数据挖掘导论——第七章:聚类

通常指的是通过计算样本之间的欧氏距离,生成一个对称矩阵,用于表示样本间的相似性或差异性。r=标准差(X)⋅标准差(Y)协方差(X,Y)​=∑i=1n​(xi​−xˉ)2​⋅∑i=1n​(yi​−yˉ​)2​∑i=1n​(xi​−xˉ)(yi​−yˉ​)​。层次聚类的思想和流程?对于变量 X 和 Y,其观测值为 (x1​,y1​),(x2​,y2​),…,an​) 和 B=(b1​,b2​,…余弦相似度=∥A∥⋅∥B∥A⋅B​=∑i=1n​Ai2​​⋅∑i=1n​Bi2​​∑i=1n​Ai​Bi​​。

2025-03-16 20:54:18 910

原创 数据挖掘导论——第二章:数据

接着就是数据的质量,数据挖掘着眼于要么是对数据质量问题的检测和纠正,要么是使用可以容忍低质量数据的算法。值得一提的是基因/蛋白表达矩阵(行为样本,列为基因),需要去除batch的时候,是沿着列标准化,要对基因表达正则化则沿着行(有些基因天生表达差异大)总之,数据清洗分为以下几步:数据去噪,清除异常值,处理缺失值,删除重复,分类数据编码,数据标准化。数据的维度,数据的频率、位置、分布(方差或标准差衡量)等。1,在计算不同样本之间的距离时,假如不标准化,可能造成对特征的重要程度估计的影响。使用前提:高斯分布。

2025-03-11 20:54:38 468

原创 基于PyTorch的深度学习——机器学习4

传统梯度优化方面的这些不足,在深度学习中会更加明显。为此,研究人员自然想到如何克服这些不足的问题。影响优化的无非两个因素:一个是梯度方向,一个是学习率。所以很多优化方法大多从这两方面入手,有些从梯度方向入手,如动量更新策略;而有些从学习率入手,这涉及调参问题;还有从两方面同时入手,如自适应更新策略。传统梯度更新算法为最常见、最简单的一种参数更新策略。其基本思想是:先设定一个学习率λ,参数沿梯度的反方向移动。

2025-03-10 22:21:55 93

原创 基于PyTorch的深度学习——机器学习3

在多分类任务中,经常采用softmax激活函数+交叉熵损失函数,因为交叉熵描述了两个概率分布的差异,然而神经网络输出的是向量,并不是概率分布的形式。此时一般不宜选择sigmoid、tanh激活函数,因它们的导数都小于1,尤其是sigmoid的导数在[0,1/4]之间,多层叠加后,根据微积分链式法则,随着层数增多,导数或偏导将指数级变小。回归问题预测的不是类别,而是一个任意实数。PyTorch中已集成多种损失函数,这里介绍两个经典的损失函数,其他损失函数基本上是在它们的基础上的变种或延伸。

2025-03-10 22:19:16 562

原创 基于PyTorch的深度学习——机器学习2

随着神经网络模型的不断学习,神经元的权值会与整个网络的上下文相匹配。2)不用再去理会过拟合中Dropout、L2正则项参数的选择问题,采用BN算法后,你可以移除这两项参数,或者可以选择更小的L2正则约束参数了,因为BN具有提高网络泛化能力的特性。当Dropout应用在较大的网络模型时,更有可能得到效果的提升,模型有更多的机会学习到多种独立的表征。实际上,从激活函数的角度来看,如果各隐藏层的输入均值在靠近0的区域,即处于激活函数的线性区域,这样不利于训练好的非线性神经网络,而且得到的模型效果也不会太好。

2025-03-10 22:14:06 729

原创 基于PyTorch的深度学习——机器学习1

强化学习把学习看作一个试探评价的过程,Agent选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给Agent,Agent根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。数据预处理是机器学习过程中必不可少的重要步骤,特别是在生产环境中的机器学习,数据往往是原始、未加工和未处理过的,数据预处理常常占据整个机器学习过程的大部分时间。因此在实际选择时,一般会选用几种不同的方法来训练模型,然后比较它们的性能,从中选择最优的那个。

2025-03-10 21:59:17 1378 1

原创 基于PyTorch的深度学习6——可视化工具Tensorboard

3)启动tensorboard服务:cd到logs目录所在的同级目录,在命令行输入如下命令,logdir等式右边可以是相对路径或绝对路径。先安装tensorflow(CPU或GPU版)​,然后安装tensorboardX,在命令行运行以下命令即可。1)导入tensorboardX,实例化SummaryWriter类,指明记录日志路径等信息。使用tensorboardX的一般步骤如下所示。

2025-03-10 21:47:18 419

原创 基于PyTorch的深度学习6——数据处理工具箱2

下面我们利用ImageFolder读取不同目录下的图片数据,然后使用transforms进行图像预处理,预处理有多个,我们用compose把这些操作拼接在一起。还可以自己定义一个Python Lambda表达式,如将每个像素值加10,可表示为:transforms.Lambda(lambda x:x.add(10))。形状为(H,W,C)的Numpy.ndarray转换成形状为[C,H,W]​,取值范围是[0,1.0]的torch.FloatTensor。1)对PIL Image的常见操作如下。

2025-03-10 21:39:26 370

原创 基于PyTorch的深度学习6——数据处理工具箱1

自定义数据集需要继承这个类,并实现两个函数,一个是__len__,另一个是__getitem__,前者提供数据的大小(size),后者通过给定索引获取数据和标签。1)datasets:提供常用的数据集加载,设计上都是继承自torch.utils.data.Dataset,主要包括MMIST、CIFAR10/100、ImageNet和COCO等。__getitem__一次只能获取一个数据,所以需要通过torch.utils.data.DataLoader来定义一个新的迭代器,实现batch读取。

2025-03-10 21:31:28 1051

原创 基于PyTorch的深度学习5—神经网络工具箱

nn中的层,一类是继承了nn.Module,其命名一般为nn.Xxx(第一个是大写)​,如nn.Linear、nn.Conv2d、nn.CrossEntropyLoss等。另一类是nn.functional中的函数,其名称一般为nn.funtional.xxx,如nn.funtional.linear、nn.funtional.conv2d、nn.funtional.cross_entropy等。在实际使用中,最常见的做法是继承nn.Module,生成自己的网络/层。

2025-03-10 08:13:42 506

原创 基于PyTorch的深度学习5——如何构建神经网络

如果是测试或验证阶段,需要使模型处于验证阶段,即调用model.eval(),调用model.eval()会把所有的training属性设置为False。PyTorch提供了自动反向传播的功能,使用nn工具箱,无须我们自己编写反向传播,直接让损失函数(loss)调用backward()即可,非常方便和高效!在nn工具箱中,可以直接引用的网络很多,有全连接层、卷积层、循环层、正则化层、激活层等等。——————————————————前向传播和反向传播。—————————————————训练模型。

2025-03-10 08:06:27 539

原创 基于PyTorch的深度学习5——神经网络工具箱

多个层链接在一起构成一个模型或网络,输入数据通过这个模型转换为预测值,然后损失函数把预测值与真实值进行比较,得到损失值(损失值可以是距离、概率值等)​,该损失值用于衡量预测值与目标结果的匹配或相似程度,优化器利用损失值更新权重参数,从而使损失值越来越小。像卷积层、全连接层、Dropout层等因含有可学习参数,一般使用nn.Module,而激活函数、池化层不含可学习参数,可以使用nn.functional中对应的函数。3)损失函数:参数学习的目标函数,通过最小化损失函数来学习各种参数。

2025-03-09 21:59:55 1027

原创 基于PyTorch的深度学习4——使用numpy实现机器学习vs使用Tensor及Antograd实现机器学习

首先,给出一个数组x,然后基于表达式y=3x2+2,加上一些噪音数据到达另一组数据y。然后,构建一个机器学习模型,学习表达式y=wx2+b的两个参数w、b。利用数组x,y的数据为训练数据。最后,采用梯度梯度下降法,通过多次迭代,学习到w、b的值。本节我们将使用PyTorch的一个自动求导的包——antograd,利用这个包及对应的Tensor,便可利用自动反向传播来求梯度,无须手工计算梯度。通过不断调整这些参数,我们可以逐渐减小损失函数的值,从而提高模型的准确性。2)生成训练数据,并可视化数据分布情况。

2025-03-09 15:40:33 485 1

原创 基于PyTorch的深度学习3——非标量反向传播

以下内容由大语言模型生成:张量,边代表从输入到输出的操作。当我们对一个标量调用backward()函数时,PyTorch能够直接计算该标量关于参与运算的所有张量的梯度。这是因为导数的概念最开始是针对标量值定义的。

2025-03-09 14:34:17 406

原创 基于PyTorch的深度学习3——标量反向传播

假设x、w、b都是标量,z=wx+b,对标量z调用backward()方法。接下来,通过自动求导实现。

2025-03-05 22:40:54 100

原创 基于PyTorch的深度学习3——基于autograd的反向传播

反向传播,可以理解为函数关系的反向传播。

2025-03-05 22:23:14 437

原创 基于PyTorch的深度学习3——Tensor与Autograd

可以调用.detach()或with torch.no_grad():​,将不再计算张量的梯度,跟踪张量的历史记录。在整个过程中,PyTorch采用计算图的形式进行组织,该计算图为动态图,且在每次前向传播时,将重新构建。(Leaf Node)的Tensor,使用requires_grad(可微分性)参数指定是否记录对其的操作,以便之后利用backward()方法进行梯度求解。在神经网络中,一个重要内容就是进行参数的学习,而参数的学习离不开求导,那么PyTorch是如何进行求导的呢?该属性表示梯度函数。

2025-03-05 21:39:54 616

原创 基于PyTorch的深度学习2——逐元素操作,归并,比较,矩阵

torch.dot:用于计算两个一维张量的点积。torch.mm:用于计算两个二维张量的标准矩阵乘法。torch.bmm:用于计算两个三维张量中对应的二维子张量之间的批量矩阵乘法。

2025-03-03 22:55:52 397

原创 基于PyTorch的深度学习2——广播

PyTorch中的广播机制(Broadcasting Mechanism)是一种强大的功能,它允许不同形状的张量在进行算术运算时自动扩展其维度,从而使得这些操作成为可能,而无需显式地复制数据。这种机制极大地简化了代码,并提高了效率。

2025-03-03 22:00:34 357

原创 基于PyTorch的深度学习2——Numpy与Tensor

Tensor自称为神经网络界的Numpy,它与Numpy相似,二者可以共享内存,且之间的转换非常方便和高效。不过它们也有不同之处,最大的区别就是Numpy会把ndarray放在CPU中进行加速运算,而由Torch产生的Tensor会放在GPU中进行加速运算。1.创建创建Tensor的方法有很多,可以从列表或ndarray等类型进行构建,也可根据指定的形状构建。

2025-03-03 21:32:31 485

原创 基于PyTorch的深度学习1——概念与安装

CUDA(Compute Unified Device Architecture),是英伟达公司推出的一种基于新的并行编程模型和指令集架构的通用计算架构,它能利用英伟达GPU的并行计算引擎,比CPU更高效地解决许多复杂计算任务。安装GPU版本的PyTorch,除了需要安装python,pytorch外,还需要安装GPU的驱动(比如英伟达的NVIDIA)、CUDA、cuDNN计算框架。1)安装NVIDIA驱动。Torch是PyTorch中的一个重要包,它包括多维张量的数据结构以及基于其上的多种数学操作。

2025-03-03 19:47:07 284

原创 文献阅读-单细胞蛋白组+胚胎发育

转录组和翻译组数据的整合:将蛋白组和已经发表的转录组和翻译组数据进行整合分析,以解释蛋白质累积和mRNA翻译之间的关系。PQ低质量胚胎的分子机制:发育失败可能与特定的蛋白质表达模式有关,可能涉及转录和翻译调控的失调。单胚胎蛋白组学:对低质量胚胎进行单胚胎蛋白质组学分析,以探究人类早期胚胎发育失败的原因。ZGA基因的重要性:该基因的转录本在囊胚阶段对蛋白质积累有重要贡献,可能决定细胞命运。CS-UPT超敏蛋白质组技术体系:对人和小鼠的卵子和早期胚胎进行蛋白组分析。物种特异性调控:强调人鼠不同。

2025-03-03 18:59:03 174

原创 鱼书学习8

超参数的最优化内容,归纳如下:1,设定超参数的范围;3,使用步骤1中采样到的超参数的值进行学习,通过验证数据评估识别精度;在超参数的最优化中,注意深度学习需要很长的时间,因此在超参数的搜索中,需要尽早放弃那些不合符逻辑的超参数。进行超参数的最优化时,逐渐缩小超参数的“好值”的存在范围非常重要。不能用测试数据评估超参数的性能,是因为如果使用测试数据调整超参数,超参数的值会对测试数据发生过拟合。调整超参数时,必须使用超参数专用的确认数据。在超参数的最优化中,如果需要更精炼的方法,可以使用贝叶斯最优化。

2025-03-01 21:24:35 104

原创 鱼书学习7

这里的要点是,每次正向传播时,self.mask中都会以False的形式保存要删除的神经元。也就是说,正向传播时传递了信号的神经元,反向传播时按照原样传递信号;正向传播时,没有传递信号的神经元,反向传播时信号将停在那里。假如,为损失函数加上权重的平方范数(L2范数),就可以抑制权重变大。机器学习中,过拟合是一个常见问题,发生过拟合的原因主要有:1,模型拥有大量参数,表现力强。对于之前的实验,加入λ=0.1的权值衰减,过拟合受到了抑制。接下来,我们来制造一场“过拟合”的实验,代码如下。

2025-03-01 20:56:28 161

原创 鱼书学习6

Batch Norm,以进行学习时的mini-batch为单位进行正规化——使数据分布均值为0,方差为1。将mini-batch的输入数据正规化后,将这个处理插入激活函数的前面或后面,可以减少数据的分布倾向。为了不那么依赖初始值,提出了基于“强制性调整激活值分布”的想法的Batch Normalization算法,并且还有加大学习率,抑制过拟合等优点。Batch Norm的思路是调整各层的激活值分布使其拥有适当的广度。为此,要向神经网络中插入对数据进行正规化的层,即Batch Norm层。

2025-03-01 20:05:46 108

原创 鱼书学习5

使用Xavier初始值后,前一层的节点数越多,要设定为目标节点的初始值的权重尺度就越小。在权重标准差为0.01,偏向0.5,相当于多个神经元都输出几乎相同的值,等于只有1个神经元,出现“表现力受阻”的问题。这里,我们来做一个实验观察权重初始值如何影响隐藏层的激活值的分布(激活函数的输出数据),这里要做的实验是向一个五层的神经网络传入随机输入数据,用直方图绘制各层激活值的数据分布。在神经网络中,权重的初始值特别重要,将介绍初始值的推荐值,并通过实验确认神经网络的学习是否会快速进行。

2025-03-01 19:19:35 141

原创 鱼书学习4

融合了Momentum(参照小球在碗中滚动的物理规则)和AdaGrad(为参数的每个元素适当地调整更新不发)。此外,进行超参数的“偏置矫正”也是Adam的特征。Adam会设置3个超参数,一个是学习率,另外两个是一次momentum的系数β1和二次momentum的系数β2。初始化时,v中什么都不保存。当调用update,v会以字典型变量的形式保存与参数结构相同的数据。使用以上SGD类,可以按如下方式进行神经网络的参数的更新。AdaGrad针对一个一个的参数,赋予其定制的值。1.1 随机梯度下降法。

2025-03-01 18:26:57 163

原创 鱼书学习3

确认数值微分求出的梯度结果和误差反向传播法求出的结果是否一致的操作称为梯度确认,梯度确认的代码实现如下所示。2. 使用误差反向传播法的学习。1,误差反向传播法的梯度确认。

2025-02-26 23:01:35 139

原创 鱼书学习2

1.实现乘法层使用这个乘法层可以实现“买苹果”的正向传播而关于各个变量的导数可以由backward()求出这里,调用backward()的顺序与调用forward())的顺序相反。2. 实现加法层加法层_init__()什么也不运行。forward()接受x和y两个参数,backward()将上游传过来的导数dout原封不动地传递给下游3. 使用加法层和乘法层,实现购买2个苹果和3个橘子4. 激活函数层的实现这里,我们把构成神经网络的层实现为一个类。先来实现激活函数的ReLu层和Sigmoid层。

2025-02-26 22:17:22 1019

原创 鱼书学习1

为了节省训练时间,从训练集中选出一批mini-batch,对每个mini-batch进行学习。此外,当监督数据为标签形式(非one-hot表示,而是像2,7这样的标签)时,交叉熵误差可通过如下代码实现。以上,通过除以batch_size对batch的个数进行正规化,计算单个数据的平均交叉熵误差。delta的作用在于,np.log(0)会导致计算困难,因此用delta防止负无限大的发生。1. 首先,让我们了解损失函数,均方误差,softmax函数,one-hot表示法。并且,为了减小误差,可以用中心差分。

2025-02-25 08:13:21 241

原创 AI排版学习——外观与图形样式,笔刷与符号

外观:窗口选项卡→外观,为路径对象进行填充与描边。

2025-02-24 21:44:57 98

原创 AI排版学习第四弹——绘图模式与剪切蒙版

内部绘图模式:新创建的形状只会出现在已有形状的里面,可右键释放剪切蒙版,用ctrl键控制移动。小技巧:把鼠标放在工具上方停留,就会出现工具的名字。正常绘图模式:新创建的形状会在最前面。背部绘图模式:新创建的形状会在最后面。

2025-02-05 17:47:13 134

原创 AI排版学习第三弹——对齐与路径查找器

形状模式与路径查找器:联集——让图像融合到一起;如果按了alt,则不仅能融合,而且还能操作,因为保留了完整路径;可以选中两个对象并产生混合结果,也可以释放掉,但混合轴依然存在需要手动确认删除;alt可以选择混合的具体类型。分布与对齐:有多种模式。混合工具的基础与应用。

2025-02-05 17:24:51 93

原创 AI排版学习第二弹——工具使用

吸管工具:按住shift键吸取颜色,可以把颜色填充到边或者形状上,具体看哪一个在前面;还可以吸文字的大小和形状。矩形网格工具:存在于线段工具的子类,可通过上下左右键对网格的大小/密度进行调整。点击对象→扩展,勾选上描边和填充,成为一个编组。导入图像到画布,对象→图像描摹→建立,成为矢量对象。对象→图像描摹→建立并扩展,成为矢量对象并保留路径。曲线精度越高,锚点越多;曲线精度越低,锚点越少。自由变换可以对图形进行任何角度的旋转和缩放。形状生成器工具:可以在闭合路径里操作。渐变:形状和描边都可以颜色渐变。

2025-02-05 16:50:22 226

原创 AI排版学习第一弹

黑箭头→ 选择图层 选中后会出现边框和点,图层中也有层层圈和蓝色点 变换面板也可以操作。白箭头→ 选择锚点 选中后锚点会变成实心的 选中的路径会出现手柄 按住shift键可以选择多个端点。旋转 选择旋转中心 按住shift键可以让图片固定45°角旋转,按住alt键。宽度工具 shift可以选择多个点,alt可以选择单边进行修改。也可以调整界面的显示比例(100%,150%等。颜色模式:默认印刷模式,可以改成RGB模式。铅笔 可画路径,或修改路径。画笔 可画路径,或修改路径。NO.2 常用工具——上。

2025-02-05 14:39:05 197

原创 RNA-Seq数据标准化

2.2 对测序深度和基因长度进行标准化:RPKM;FPKM(双端测序,reads1和reads2同时匹配上fragment1)以下是样本间的标准化方法:TMM,RLE(DESeq2,cutdiff2),计算比例等。2.1 对测序深度进行标准化:CPM,counts per million。2.3 TPM对所有基因的FPKM又做了一次标准化。2,不同批次实验的测序深度不同。以下是样本内的标准化方法。1,不同基因的长度不同。为什么要进行标准化?

2025-01-05 17:08:52 278

原创 RNA-Seq分析流程

普遍流程,从fastq文件进行质控,接下来用tophat2,STAR,HISTA2等软件比对到基因组上,这一步会得到比较大的sam文件,用samtools软件转换成比较小的bam文件,最后质控,计数,标准化,找差异基因。mapping的两种思路,一种是mapping到成熟的mRNA参考序列上,一种是mapping到参考基因组上,后者可以发现新的转录本。比对前,需要下载好版本匹配的基因组文件,以及相应的注释文件(gtf)

2025-01-05 14:18:12 207

原创 DIA-NN的安装

除了按照官网的链接,安装exe之外,还需要安装skyline,skyline daily(需要严格按照以上链接的版本),Msfilereader(特定版本,官网有链接)

2024-10-30 12:41:37 643

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除