- 博客(339)
- 资源 (3)
- 收藏
- 关注
原创 【R安装包报错】在conda环境下用R语言命令安装R包报错
报错原因:如果使用的是conda安装的g++,可能与系统库不兼容。尝试 切换到系统默认编译器。
2025-02-24 10:44:19
371
原创 【富集分析GSEA】如何理解富集分析以及应用
GSEA(Gene Set Enrichment Analysis,基因集富集分析)是一种用于基因表达数据分析的方法,旨在评估 预定义基因集 在 基因表达排序列表 中是否富集。文章:Subramanian et al. 2005 论文《Gene Set Enrichment Analysis: A Knowledge-Based Approach for Interpreting Genome-Wide Expression Profiles》
2024-11-07 21:41:58
458
原创 TCGA数据集解读和数据下载
表达量矩阵的基因的id的注释信息->encode.v22.annotation.gene.probeMap。从参考文献【2】下载数据。
2024-04-28 16:07:29
955
原创 迁移学习入门
[1]迁移学习与领域自适应:如何让模型更好地适应新的任务[2]迁移学习与多模态数据处理的结合与应用[3]Domain Adaptation(领域自适应,MMD,DANN)[4]迁移学习与多模态学习:实现跨模态知识传递[5] (入门推荐)迁移学习及领域自适应 Transfer Learning & Domain Adaptation
2024-04-17 15:31:47
344
原创 Cmap数据以及L1000介绍
CMap (Connectivity Map)是基于基因表达数据的数据库,用于药物发现和疾病研究。CMap是一个由Broad Institute创建的大型数据库,旨在通过基因表达模式的比较来揭示药物、基因敲除或其他生物学干预的细胞反应。其核心思想是通过测量不同化学物质、基因敲除、或小分子处理后的细胞基因表达数据,构建一个基因表达的“连接图”。研究者可以通过CMap查找某个基因或疾病状态的基因表达模式,并根据与已知药物或化合物的基因表达图谱的相似性,预测可能的治疗药物。
2023-12-11 15:35:29
2714
原创 如何在服务器中使用Conda中安装R环境,并用jupyter使用R
如果需要debug需要安装vscDebugger,安装方式如下图所示(参考文献【4】),如果安装的时候报错见参考文献【2】。推荐使用anaconda或者miniconda,创建虚拟环R_env境然后安装R;第七条:的具体操作见参考文献【5】【8】
2023-12-07 15:49:01
5437
原创 什么是基因表达谱分析及其相关概念
L1000 技术是整合网络细胞印记库项目(Library of Integrated Network Based Cellular Signatures, LINCS)中使用的低成本基因表达谱测定技术。其考虑基因表达之间的相关性,将需要测量的基因目大幅减小,从而达到控制成本的目的.L1000 技术是挑选 978 个标志基因进行测量,进一步通过构建模型外推出其他基因的表达量。实验数据表明这些标志基因的表达可以代表全基因组 80%的信息。
2023-11-15 16:13:06
1454
原创 理解Gumbel softmax trick
对离散的分布进行采样假设如下场景:模型训练过程中, 网络的输出为p0.10.70.2, 三个数值分别为"向左", “向上”, "向右"的概率。我们的决策可能是yargmaxp, 也即选择"向上"这条决策。argmaxp1000.710070argmax而gumbel_softmax的作用就是解决上述这两个子问题.。
2023-11-08 09:57:24
860
转载 【torch_geometric报错】AttributeError: Can‘t get attribute ‘DataEdgeAttr‘
问题原因:在使用torch_geometric.datasets和torch_geometric.data下载数据集时,如果是直接复制别人的数据集,可能一起上传上去的还有processed文件下的pt文件,由于pytorch/torch_geometric版本不一致导致解析失败。解决方案:删除processed目录。
2023-10-23 15:22:22
1189
转载 【Python进阶】Python argparse 模块中用‘store_const‘,‘store_true‘,‘store_false‘的使用
[1]Python argparse 模块中用‘store_const‘,‘store_true‘,‘store_false‘创建的选项并未存储目标值
2023-07-25 11:22:09
409
转载 查看GPU, cuda,显卡被哪个进程占用
https://blog.youkuaiyun.com/bagba/article/details/113124482
2023-06-30 09:27:39
363
原创 【泛函基础】变分推断详解(一)
在学习机器学习和深度学习的过程中,基础的数学知识粗略的可以分为两大类:矩阵论和概率论,基本都逃不过这两个框架(除了优化问题)。而在概率论中尤其以变分推断用的最为广泛,无论是最新的深度学习算法还是机器学习基础,各种知识方法总是存在着对变分推断这一部分知识的交叉。在这个过程中,我们的关键点转变了,从“求分布”的推断问题,变成了“缩小距离”的优化问题。不容易表达,不能直接求解时,可以尝试用变分推断的方法, 即,寻找容易表达和求解的分布。首先,我们的原始目标是,需要根据已有数据推断需要的分布。
2023-03-22 21:33:46
2103
原创 【多模态】多模态特征融合策略——门控多模态融合方法
是多模态分类任务——也就是融合视觉和文本特征,并进行分类。这篇文章主要的亮点在于使用了类似于LSTM中的gate机制,提出了一种基于门控神经网络的多模态学习新模型。门控多模态单元 (GMU) 模型旨在用作神经网络架构中的内部单元,其目的是根据来自不同模态的数据的组合找到中间表示。GMU 学习使用乘法门来决定模态如何影响单元的激活。我们提出的模块基于门的想法,用于选择输入的哪些部分更有可能有助于正确生成所需的输出。
2023-03-15 15:31:23
12252
4
原创 【Numpy进阶】np.argpartion()函数
[1]numpy.argpatition() 应用详解 + TopK值[2]NumPy的实用函数整理之argpartition[3]Numpy的argpartion函数
2023-03-01 11:44:01
278
原创 【对比学习】Pytorch对比损失的实现及应用
对比损失比较好理解,在输入的多模态数据中使得相同对应样本的相似度越大越大,不对应样本的相似度越小越好。
2023-03-01 11:35:44
1996
原创 【图机器学习】GCN源码中的邻接矩阵的构建
在上述代码中比较难理解的就是构建对称的邻接矩阵那一句,因为在一般的图神经网络模型中,输入的图是无向图所以邻接矩阵是对称矩阵。特别是如果自己构建KNN图的话,对称矩阵这个地方一定要注意。上述代码的具体解释可以看参考文献,这里不多赘述。需要注意的是构建邻接矩阵是否只有这一种方法?其实不然,最简单的操作是矩阵A加上矩阵AT但是这种方法有一定局限性,如果矩阵是一个加权的并不是0,1矩阵,或者矩阵本身就存在对称的元素,直接相加就会存在问题。所以使用上述的代码会避免存在的问题。
2023-03-01 11:24:40
1482
原创 【图机器学习-空域卷积】GNN/GraphSAGE/PGC模型的变化
1]图卷积神经网络3-空域卷积:GNN/GraphSAGE/PGC的引入和介绍。
2023-02-14 16:02:02
290
原创 【机器学习】skit-learn中LSI模型的实现
[1]sklearn_api.lsimodel – Scikit learn wrapper for Latent Semantic Indexing[2]Python models.LsiModel方法代码示例
2023-02-13 16:05:43
347
原创 【Tensorflow2.0】keras.models.Sequential() 和Model()模块
在读tensorflow代码时经常看到使用Model定义模型,这与在Pytorch中经常使用的使用继承模型有区别,所以这里就记录一下。在Keras中有两种深度学习的模型:序列模型(Sequential)和通用模型(Model)。差异在于不同的拓扑结构。如果我们像实现一些更为复杂的网络,比如多输入多输出的模型就需要使用到keras.models.Model()来构建网络。如下代码同时输出最后卷积层Flatten后提取的特征层,以及分类结构。
2023-02-10 16:01:13
4044
2
原创 【Tensorflow2.0】tf.keras.initializers.GlorotUniform初始化
其实很简单,GlorotUniform初始化等同于Pytorch中的Xavier均匀初始化器!
2023-02-09 21:37:08
480
原创 【Tensorflow2.0】tensorflow中的Input()函数
shape:一个表示张量的维度的元组。不包含batch size信息。例如,shape=(32,)表示输入的将是一批32维的向量。注意,即使在初始化中只使用不含batch size信息的shape参数,函数最终的输出也会默认加上值为None的batch size信息,例如,初始化Input(shape=(None, None, 3)),则最终返回的tensor为(None, None, None, 3),第一个None就是batch size信息。作用:初始化深度学习网络输入层的tensor。
2023-02-09 18:00:35
1078
原创 【Tensorflow2.0】tensorflow中的Dense函数解析
Dense层就是全连接层,对于层方式的初始化的时候,layers.Dense(units,activation)函数一般只需要指定输出节点数Units和激活函数类型即可。输入节点数将根据第一次运算时输入的shape确定,同时输入、输出节点自动创建并初始化权值w和偏置向量b。由于本人是Pytorch用户,对Tensorflow不是很熟悉,在读到用tf写的代码时就很是麻烦。W 是权重函数, Dense() 会随机给 W 一个初始值。use_bias=True, 是否使用b 直线 y=ax+b 中的 b。
2023-02-09 14:59:49
8548
2
原创 【Pytorch进阶】Pytorch冻结部分层的参数
在读代码时遇到了上述的情景,记录一下作用。上述代码的作用主要是用来在训练中冻结神经网络中的一些层。其中,self.parameters是存储神经网络中间产数矩阵的变量,lambda是函数,filter是过滤函数。filter()函数接收两个参数,第一个为函数,第二个为序列,序列的每个元素作为参数传递给函数进行判断,然后返回 True 或 False,最后将返回 True 的元素放到新列表中。
2023-02-08 09:27:20
501
原创 【单细胞】Scanpy进行数据归一化
将数据归一化到mean=0,var=1。如果某个基因没有任何方差,也会被保留,如果设置了zero_center=True,那么会设置为0 ,未来会设置为NaN。否则会丢掉这个基因。
2023-02-03 16:04:01
514
转载 【单细胞】Scanpy进行高可变基因的筛选
取出高可变基因,默认使用log的数据,当使用flavor=seurat_v3的时候,采用count data。flavor参数可以选择是使用Seurat,Cell ranger还是seurat v3的算法。Seurat and Cellranger中,使用的是dispersion-based方法,获得归一化的方差。先对基因按照表达量平均值进行分bin,然后计算落在每个bin的基因的离散度(dispersion)的均值和SD,最终获得归一化的dispersion。
2023-02-03 15:48:59
1235
原创 【单细胞】sc.pp.normalize_per_cell和sc.pp.normalize_total()函数
sc.pp.normalize_per_cell()和sc.pp.normalize_total()功能是一致的。在最新的Scanpy中sc.pp.normalize_total()替代了sc.pp.normalize_per_cell(),具体的情况见参考文献【2】。
2023-02-03 15:16:53
1109
原创 【单细胞】Python单细胞分析数据结构AnnData
[1][2]Python单细胞分析数据结构——AnnData[3]scanpy 单细胞分析包图文详解 01 | 深入理解 AnnData 数据结构[4]Scanpy(一)AnnData数据结构与一些API用法介绍
2023-02-03 10:29:34
323
麻省理工线性代数36讲讲义.rar
2020-03-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人