
生信
文章平均质量分 78
Xiaofei@IDO
这个作者很懒,什么都没留下…
展开
-
TCGA的gdc-client的下载优化
1、背景最近,在使用TCGA数据,需要从TCGA下载数据。当数据文件数量较少的时候,为了偷懒(其实也麻烦),可以一个一个的下载。但又有时候为了获取更多的数据,我们可以通过 gdc-client 程序,基于manifest进行批量下载。问题来了:采用gdc-client(linus)/ gdc-client.ext(Windows)download -m gdc-manifest.txt下载的时候,时常中断???2、解决办法修改 gdc-client download 的配置文件。2.1 查看默认配原创 2022-02-11 10:29:21 · 2973 阅读 · 1 评论 -
如何构建本地化的blast2go数据库
1、blast2go数据库简介这GO功能注释过程中,我们经常使用一些R包(ClusterProfiler),或者基于超几何检验的方法进行GO功能富集分析。这些分析多数情况下,是建立在具有参考物种信息的情况下。有时候,我们进行的数据分析,是建立在物种信息的情况下。比如,比较常见的无参转录组数据分析,或者发现新基因的时候。在这种情况下,我们常常通过序列相似性的方法,先找到相似的序列编号,再通过注释网站工具进行注释。其中,blast2go是比较经典的一种blast算法。其基本步骤是,首先对需要注释的序列,与N原创 2022-02-09 15:03:46 · 3229 阅读 · 0 评论 -
一个经典的ROC曲线绘制
一个故事江湖传闻,ROC曲线最早被用于检测敌军的雷达信号,后来不知怎么的,被应用到心理学,影像学和医学等等。举个例子,一位医生有两组受试者,一组为正常对照组,一组为病例组,他们的疾病状态分别由目前的金标准所诊断(比如说通过病理活检或临床诊断等等)。同时,这位医生对血液中的某个指标非常感兴趣,想研究这个指标是否可以用于疾病的早期诊断,并且想要评估它的敏感度(Sensitivity)和特异度(Specificity)等参数。最后,想要画出一个ROC曲线帮助更好的评估这项指标的诊断能力。如果你是这位医生,.原创 2021-06-04 10:59:24 · 4532 阅读 · 0 评论 -
通俗理解 机器学习中的偏差和方差
1. 概述一个集成模型(f)在未知数据集(D)上的泛化误差E(f;D),由方差(var),偏差(bais)和噪声(ε)共同决定。接下来,我们一个简单的线性回归来理解偏差和方差概念。在下面图像中,每个红色点是基于我们的集成算法(或机器学习模型)产生的预测值;红色虚线代表着这些预测值的均值;蓝色的线代表着数据本来的面貌。那么:偏差:模型的预测值与真实值之间的差异,即每一个红点到蓝线的距离。在集成算法中,每个基评估器都会有自己的偏差,集成评估器的偏差是所有基评估器偏差的均值。模型越精确,偏原创 2021-05-28 11:32:15 · 879 阅读 · 0 评论 -
基因芯片数据的标准化
1. 两种芯片数据标准化的区别芯片数据分析中的标准化主要分为芯片内标准化和芯片间标准化。芯片内标准化根据目的不同可分为消除染色偏差的 Lowess Normalization,消除点样针头引起的空间差异的 Print-tip Normalization。芯片间标准化有 Quantile Normalization,Global Normalization。对基因芯片数据的标准化处理, 主要目的是消除由于实验技术所导致的表达量(Intensity)的变化,并且使各个样本(sample)和原创 2021-03-23 09:48:09 · 2223 阅读 · 0 评论 -
WGCNA精讲
背景加权基因共表达网络(wighted gene co-expression network nanlysis,WGCNA)将复杂生物过程的基因共表达网络划分为高度相关的几个特征模块,其代表着几组高度协同变化的基因集,并可将模块与特定的临床特征建立关联,从中寻找发挥关键功能的基因,帮助识别参与特定生物学过程的潜在机制以及探索候选生物标志物(Langfelder and Horvath, 2008)WGCNA基于两个假设:(1)相似表达模式的基因可能存在共调控、功能相关或处于同一通路,(2)基因网络符合无原创 2021-03-16 11:38:54 · 9150 阅读 · 2 评论 -
多重共线性问题
概述在将数据放入到模型中进行训练时,经常需要检验各维度之间的可能存在的多重共线性的问题。接下来将简单介绍共线性的识别和常用解决办法。概念多重共线性:是指模型中的自变量之间存在较强的线性关系,多重共线性的存在不仅会导致模型的过拟合,而且还会导致回归模型的稳定性和准确性大大的降低。出现场景容易出现多重共线性的场景:数据样本量的不足会导致多重共线性。多个变量之间都基于有同趋势的数据。多个变量之间存在着近似线性的关系。多重共线性的识别一般含有如下指标:容忍度、方差膨胀因子、特征值等几个特征来原创 2020-09-02 13:13:13 · 5556 阅读 · 0 评论 -
GSEA原理的通俗易懂的理解
GSEA分析GSEA介绍GSEA原理数据矩阵文件GSEA计算中几个关键概念典型富集结果解读GSEA与传统的比较GSEA介绍我们先提出问题:在解读传统的富集分析(基于超几何分布或Fisher检验)结果时,经富集分析筛选的功能通路中,既有上调差异基因,也有下调差异基因,那么这条通路总体的表现形式改如何定义(是被抑制还是激活)?或者更直观的解释,这条显著富集的功能通路的(基因)表达水平在实验处理后是上升了,还是下降了?分析:在传统的富集分析时,我们只需要一个差异基因的列表,根本不关心这个差异基因究竟是上原创 2020-07-01 15:13:59 · 23554 阅读 · 6 评论