- 博客(26)
- 问答 (1)
- 收藏
- 关注
原创 ipynb文件太大打不开
在运行命令时,某一个cell报错了,导致最终ipynb文件竟然有190MB,完全无法在jupyter中打开,可以先用记事本打开查看报错原因,然后将ipynb的所有输出删掉。会删除所有cell的output。
2025-03-11 10:04:58
105
原创 读入或写入h5ad文件时,报错
可能是obs或var的index,或者名称出现了None,以及值不是str/object类型或者是存在adata.raw有一些冲突。
2025-03-05 21:33:03
145
原创 conda环境创建软连接
原本我的conda安装在/home下面,但是目前的空间不足,很影响后续的使用,因此我在/home下创建了一个软链接,链接到/picb下,也就是说实际的miniconda目录是在/picb下的。如果有需求更改miniconda3实际目录的某些名称,比如将miaoy改为miao,那么只需要更新一下这个软链接,conda是可以继续使用的。如果使用jupyter的话,原jupyter空间也在home下,可以将jupyter的空间也链接到picb下。
2024-12-05 11:35:27
230
原创 ingest&BBKNN使用
1. ingest方法不是无偏的整合不同datasets,从而学习一个joint representation(as CCA (e.g. in Seurat) or a conditional VAE (e.g. in scVI) ,BBKNN,would do),而是根据已处理好的ref,将新数据投射上去,因此只需要处理一次ref,就可以不断的添加新数据映射上去2. 在执行前我们需要对 adata_ref 运行 neighbors()
2024-11-08 12:17:14
845
原创 ACC、AUC、auPR
1. test acc:模型正确预测的样本占总样本的比例。如果该样本中零值大概是73%的比例,test acc高而auc低说明模型没学到有用的信息,将所有样本都判断为0都有73%的正确率,更何况随机猜测(auc=0.5),因此准确率会稍高于73%2. AUC:ROC曲线下的面积,ROC曲线是真阳率(True Positive Rate, TPR)对假阳率(False Positive Rate, FPR)的图表表示。AUC越高,意味着模型对正负样本的区分能力越强(能把正样本找全)。
2024-03-20 10:54:13
1491
1
原创 GFETM: Genome Foundation-based Embedded Topic Model for scATAC-seq Modeling阅读笔记
考虑到scATAC数据中的染色质特征是与特定的高染色质可及性基因组区域(用DNA序列表示)相关的,因此,整合来自GFMs的核苷酸序列embeddings(来自人类参考基因组的pre-trained),可能会增强染色质特征的embeddings,并提升scATAC数据的建模。GFETM在多个数据集上展现了sota的性能,并在不同batches、tissues、species、omics 之间都展示了泛化性和可迁移性。
2024-03-16 17:03:18
685
1
原创 基因、转录组的命名
一个基因(Gene)可以通过不同方式被转录(Transcription)成多个转录本(Transcript),每个转录本可以被翻译(Translation)成一个蛋白(Protein)。
2024-03-08 12:12:27
1159
1
原创 在linux中安装pytorch
下载过程中,torch有大概2G,下载速度很慢很慢,因此,直接在提供下载的网址将该文件下载下来,并传到 /picb/bigdata/project/myy/torch-1.13.1+cu116-cp38-cp38-linux_x86_64.whl 下,然后用。尝试之后发现它还是安装的cpu版本的,有人是这样说的,也就是conda安装时自动替换为cpu版本了。(我的服务器nvidia-smi出来后是11.7版本的)所以放弃用conda下载了,可恶!安装好torch之后,再继续用。
2023-12-07 19:33:01
436
原创 h5文件的读取(h5py、scanpy)
HDF:hierarchical data format 层次数据格式- h5文件中有两个核心概念:group 和 datasets-- group 包含了其它groups和datasets,像字典一样工作(类似目录)-- dataset 即numpy.ndarray,像numpy数组一样工作(类似文件)
2023-11-07 14:06:51
7081
原创 kipoi使用-DeepSEA
tsv内容是:,共10条序列,作为后续的example;fa内容是无间断的30万个碱基:chr22:32000000_32300000。
2023-08-30 21:11:48
210
原创 iGWAS文献总结---图像GWAS的自监督学习表示
iGWAS用于识别,通过对比学习从医学影像中发现的表型相关的遗传因素。使用视网膜眼底照片,提取代表其特征的128维向量作为表型,用EyePACS数据集中的4万张图像训练模型,从UKB中的65629名英国白人参与者的130967张图像中生成表型的表示特征,GWAS鉴定出34个相关基因座。WNT7B是新发现的,功能验证表明与视网膜血管发育有关。这种基于医学图像自监督表型分析,对 传统的 用人类专家定义的成像表型来说 是一种改进。
2023-08-07 16:36:41
326
1
原创 DeepSEA-用深度学习预测非编码变异的效应
从原始序列中预测非编码变异的效应,基于深度学习模型,预测不同的染色质特征,以及预测单核苷酸改变后的染色质效应。可以利用该方法改进功能变异的优先级排序(包括eQTL和疾病相关变异)
2023-08-06 21:29:07
1093
原创 GWAS_tutorial 学习笔记
主要是根据https://github.com/MareesAT/GWA_tutorial跑了一遍GWAS的基本流程,以及附有一些个人理解
2023-06-22 20:38:19
1532
5
空空如也
做chromVAR时
2022-03-15
TA创建的收藏夹 TA关注的收藏夹
TA关注的人