- 博客(15)
- 收藏
- 关注
原创 如何根据NCBI中的PRJ、SRA、SRP、SRX、SRR编号下载数据
PRJNA、PRJEB 或 PRJDB 开头的编号用来表示一个完整的生物项目或研究计划,是最高级别标志符;SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息。每个PRJ下面有多个SRA。
2025-01-08 17:55:31
1258
原创 WDL 流程语言编写及进阶(标准结构/线性输入输出/默认参数设置/判断语句)
目录简介1、WDL 的标准结构2、进阶版:线性输入3、进阶版:默认参数输入如何设置4、进阶版:判断功能简介WDL 定义了一个可执行的流程,它由call调用的一系列task组成,task 是一个模块化的一系列命令,可以复用,由call 语句调用在workflow block里面。task本身定义在外围,它可以import,建议这么书写,增加可保护性。task调用顺序及书写顺序不决定流程执行task的顺序,但是建议顺序书写。task层的变量可以引用workflow层的变量,也
2022-05-17 15:40:46
3825
原创 数据预处理方式:标准化/正态分布/zscore/scale/
一、数据预处理在实际数据分析工作中,我们会得到各种各样的数据,例如:存在缺失值,存在重复值,数据量纲单位不同等,这就要求我们在使用之前对数据进行预处理,一般为针对不同生物学特征和数据集数据的不同而选择不同的预处理流程,下文将结合我们遇到的问题,分享一些在机器学习中常用到的可能会与我们的数据预处理相关的方法。1. 标准化(Standardization)根据维基百科中所说,归一化(Normalization)和标准化(Standardization)都属于数据缩放的方法,用于数据预处理过程。 ..
2022-04-19 15:06:04
9316
原创 ensembl-vep/VEP 注释软件安装及测试 超简单版(conda vep、百度网盘数据库)
ensembl-vep/VEP 注释软件安装及测试 超简单版(conda vep、百度网盘数据库)
2022-03-17 17:04:18
14072
16
原创 文献分享:定义的肿瘤抗原特异性T细胞增强了个性化的TCR-T细胞治疗和免疫治疗反应的预测
《Defifined tumor antigen-specifific T cells potentiate personalizedTCR-T cell therapy and prediction of immunotherapy response》简介从患者体内自然发生的肿瘤抗原特异性T(Tas)细胞中提取的T细胞受体(TCRs)设计的T细胞将靶向其肿瘤中的个人TSAs。为了建立这种个性化的TCR-T细胞治疗,通过单细胞mRNA测序(scRNA-seq)、TCR测序(TCR-seq)和体外新.
2022-02-28 22:12:17
2323
原创 【Pytorch-从一团乱麻到入门】:6、Pytorch 选择最终模型的方式:save best model & early stop
在模型训练时一般会进行多轮,那么到底哪一轮训练出来的模型是最优的呢?如果在脚本中挑选出最合适的模型呢?针对上述问题,一般会有如下几种解决方法;1、最占用存储但是却是最稳妥的方法:每一轮的模型都保存,模型保存方式为:torch.save(model, "model.pkl")2、早停机制,即在训练时保存效果在一定范围内不再提升时的模型。早停机制是一种正则化的手段,用于避免训练数据集上的过拟合。早期停止会跟踪验证损失(val_loss),如果损失连续几个 epoch 停止下降,训练就会停止
2022-02-23 21:46:46
3233
4
原创 【Pytorch-从一团乱麻到入门】:5、模型效果评估指标:ROC-AUC、PR-AUC及可能遇到的问题(2)
AUC的计算属实隐藏着无数的坑,一旦遇到就得吭哧吭哧排查很久,在次进行记录,给走过路过的小伙伴们提个醒。1、Bug如下:如果遇到ROC-AUC数值出现多个0.5,那么极有可能是数据本身的问题,例如:当预测类别只有一类时,计算ROC-AUC会得到0.5 !代码如下:import numpy as npfrom sklearn import metricsfrom sklearn.metrics import precision_recall_curve,auc,accuracy_scor
2022-02-23 21:06:10
765
原创 【Pytorch-从一团乱麻到入门】:4、模型效果评估指标:ROC-AUC、PR-AUC及可能遇到的问题(1)
1.ROC-AUC 和PR-AUC定义AUC: 随机抽出一对样本(一个正样本,一个负样本),然后用训练得到的分类器来对这两个样本进行预测,预测得到正样本的概率大于负样本概率的概率。ROC-AUC 指的是 ROC 曲线下的面积,通过在【0,1】范围内设置阈值来计算对应的TPR和FPR,最终将所有的点连起来构成ROC曲线。PR-AUC 的构造和上述过程基本一致,只是需要再计算出 Precision 和 Recall,以precision(精准率)和recall(召回率)这两个为变量而做出的.
2022-02-18 10:14:07
4027
原创 【Pytorch-从一团乱麻到入门】:3、模型效果评估指标:ROC、AUC、precision、recall
在构建模型中,我们经常会用到AUC、ROC等指标来进行模型效果评估ROC全称是“受试者工作特征”(Receiver Operating Characteristic)。ROC曲线的面积就是AUC(Area Under the Curve)。AUC用于衡量“二分类问题”机器学习算法性能(泛化能力)。如果大家对二值分类模型熟悉的话,都会知道其输出一般都是预测样本为正例的概率,而事实上,ROC曲线正是通过不断移动分类器的“阈值”来生成曲线上的一组关键点的Python中sklearn直接提供了用于计算R
2022-02-15 16:48:06
4487
原创 文献分享:个体化治疗中新抗原的识别鉴定 Identification of neoantigens for individualed therapeutic cancer vaccines
Identification of neoantigens for individualed therapeutic cancer vaccines个体化治疗性癌症疫苗中新抗原的鉴定在这篇综述中,我们填补了对T细胞识别新抗原的基本机制的理解和发现体细胞突变和癌症免疫治疗的新抗原预测的计算方法之间的空白,提出一种新抗原分类仿佛,基于抗原如何在特定临床环境下给予有效的抗肿瘤免疫来区分保护、抑制和忽略抗原文献脉络:新抗原的呈递和识别:1、新抗原呈递2、新抗原特异性T细胞反应的启动
2022-02-13 23:05:22
2161
原创 【Pytorch-从一团乱麻到入门】:2、Pytorch的初步理解及相关概念准备
一、简单理解使用pytorch进行模型预测时的逻辑规律基本如下: 输入input,将input转化为张量(tensor) 设计模型的层 pytorch中的torch.nn模块包含torch已经准备好的层,方便使用者调用构建神经网络,包括:卷积层、池化层、激活函数层、全连接层等相关使用方法:卷积层:输入和卷积核之间的内积运算,是两个实值函数之间的一种数学运算;池化层:对卷积层得到的特征进行进一步处理(主要是降维),对数据进一步浓缩;激活函数:非线性数据的线形转化,全连接层.
2022-02-11 08:59:21
243
1
原创 【Pytorch-从一团乱麻到入门】:1、Pytorch、jupyter notebook 的安装及设置
一.pytorch安装1、查看CUDA版本安装pytorch之前需要确定集群的CUDA版本,根据CUDACUDA版本去pytorch官网上选择合适的版本,根据提供的conda命令行安装即可查看CUDA版本的方式使用nvidia-smi查询驱动版本,如图所示:2.pytorch安装去pytorch网址选择合适的版本,然后使用conda安装即可:Start Locally | PyTorch二、jupyter notebook安装及使用(linux安装浏览器.
2022-02-11 08:57:22
797
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人