
统计学
文章平均质量分 73
Xiaofei@IDO
这个作者很懒,什么都没留下…
展开
-
基于voerlap的相似性度量-单细胞克隆亚型分析
基于overlap的相似性度量,有多种多样的方法,其应用也是多种多样。这里,我们主要讲解在单细胞免疫组库中的应用。基于单细胞的免疫组库的测序,我们可以获得每一个细胞类群中的不用克隆亚型,基于这些克隆亚型的overlap,我们可以推断不同细胞亚群的生命体的状态变化,或者是进化轨迹分析。原创 2023-01-16 16:21:17 · 1207 阅读 · 0 评论 -
临床资料研究中的风险因素评估相关指标
写这篇文章是因为最涉及的医学相关的项目比较多,有些常常遇到的概念容易混淆,在这里着重区分一下。原创 2023-01-08 18:30:17 · 1596 阅读 · 0 评论 -
线性回归样本量要求
多因素回归样本量要求原创 2022-09-06 18:34:48 · 2616 阅读 · 0 评论 -
Kolmogorov-Smirnov(KS)检验
KS-检验原创 2022-04-29 20:09:42 · 12938 阅读 · 0 评论 -
线性回归的简单介绍
一、背景简单线性回归(Simple linear regression)也称为一元线性回归,是分析一个自变量(x)与因变量(y)之间线性关系的方法,它的目的是拟合出一个线性函数或公式来描述x与y之间的关系。我们以最简单的一元线性回归回归方程来解释:yi=β0+β1×xi+eiy_i = \beta_0 + \beta_1 \times x_i + e_iyi=β0+β1×xi+ei其中,yiy_iyi 为因变量,xix_ixi 为 自变量,β0\beta_0β0 为截距, β1\be原创 2022-03-19 21:27:58 · 16500 阅读 · 1 评论 -
蛋白质组学两个定量方法(iBAQ和LFQ)的区别及常见的标准化方法
1、基于Maxquant软件处理的LabelFree蛋白质组学首先,在使用Maxquant软件进行查库的时候,有两个参数值得大家关注:LFQ和iBAQ。当我们在进行搜库时,如果两个参数都选择,将会在结果文件中有三个定量结果:Intensity,IBAQ和LFQ。接下来,我们来详细解释一下这三个定量结果的区别:Intensity:将Protein Group中的所有Unique和Razor peptides的信号强度求和,作为最原始的强度值iBAQ:基于 Intensity 的强度值,除以该蛋白的原创 2022-02-12 16:57:00 · 19387 阅读 · 0 评论 -
Boostrap方法的理解及应用
1、Boostrap介绍1.1 概念性解释Boostrap统计学方法是一种非参数检验方法,用于估计各种统计量的置信区间。Boostrap计算步骤简单的描述为:通过有放回的数据集的重采样,产生一系列的待检验统计量的Boostrap经验分布。基于该分布,计算标准误差,构建置信区间,并对多种类型的样本进行统计信息和假设检验。Boostrap统计学方法使用范围比较广,因为它不需要假定数据服从特定的理论分布(比如,多数假设检验的正太分布假设),因此常作为传统假设检验的替代方法如果数据满足特定理论分析,请使原创 2022-02-11 22:19:53 · 6591 阅读 · 0 评论 -
Quantile-Quantile plot解释
原创 2022-01-26 16:30:22 · 1274 阅读 · 0 评论 -
Bootstrap统计学方法简介以及中心极限定理
一、概念Bootstrap 一词出自英文习语“pull yourself up by your bootstraps”。它的隐含意是“improve your situation by your own efforts”,即“通过你自己的努力(而非他人帮助)来解决困难改善处境”。因此,Bootstrap 一词就代表了“自力更生”;与参数估计比较,Bootstrap 意味着我们仅仅通过使用手头上的样本数据而不对总体的分布做任何假设(比如传统方法中的正态分布假设),来计算样本统计量在估计总体统计量时的误差原创 2022-01-25 20:51:40 · 3440 阅读 · 0 评论 -
你需要理解一下“偏相关系数”及R语言实现
一、背景提起相关系数,我们最常见的是“Pearson”,“Spearman"等相关系数。但是,我们有时候常常忽略“偏”相关系数。其实,最近在做医学相关的项目时候,遇到这样的问题。比如,在需求糖尿病患者中,异常代谢无与病人发病时间的关联时,由于糖尿病受到各种其他临床因素的影响,这时在进行相关性分析时,不得不考虑“混杂”因素的影响。这里,我们举一个更简单的示例:游泳可以促进冷饮的销售,即游泳的人越多,冷饮的销售量也越多。统计数据如下:第一种:Pearson检测结果如下:如上表,”冷饮销售量“和原创 2021-12-24 09:45:21 · 6358 阅读 · 1 评论 -
p-value矫正方法
几个同义词概念p-value:常用的统计学显著性检验指标,衡量一次检验假阳性率的指标(False positive rate) ;Q value:调整后p-value,衡量错误发现率的指标(False discovery rate,简称FDR)。即使用Q value的这个参 数预估FDR。adjust p-value:调整后p-value值通常情况下,我们可以认为Q value = FDR = adjusted p value;实际上,还是要依据具体的数据分析方案定义Adjust p-val原创 2021-11-04 13:18:09 · 14153 阅读 · 2 评论 -
生存分析入门理解
一、几个关于“时间”的概念中位生存时间mOS:即50%的患者死亡时所对应的时间。如果将所有患者生存时间按从小到大排序,中位生存时间即顺序处于中间的患者的生存时间。入组时间:入组患者很难瞬间完成,尤其对于发病率比较低的肿瘤,因此患者入组往往要经过相对较长的时间。入组时间为第1例患者入组到最后一例患者入组所经历的时间。随访时间:在最后一例患者入组完成后,还需对所有患者随访一段时间。从最后一例患者入组,到试验截止日期的间隔称为随访时间。注意,这里的随访时间,跟患者的观察时间意义不同。如果一个临床原创 2021-10-22 13:32:57 · 1319 阅读 · 0 评论 -
临床数据的区组实验数据分析 - 倾向性评分匹配 (PSM)
1. 背景知识在医疗领域,研究一款新药是否有效,通常需要做的是大规模分组实验,treatment(实验组) 与 control(对照组)除了服用的药物有所不同外,其他因素,如:身高、体重、病情等,应该是类似的,这样的实验结果才能对新药的药效有客观的评价。在互联网、电商等公司,也有类似的场景:为了测试一个新优化的页面是否能够提高支付转化率,需要做ABtest。这时一个很重要的环节就是将流量随机的分为A组和B组,A与B的关系是平行宇宙,我们希望的是A与B的区别只是看到的页面有所不同,其他特征如性别、用户生命转载 2021-08-30 21:15:33 · 3312 阅读 · 0 评论 -
数据预处理(标准化方法一)
好吧,先来看一个列子在特征工程中,做特征缩放是非常重要的,如下图所示:我们可以看到,在没做特征缩放前,用kmeans跑出的聚类结果就如图所示,以y=0为分界线,上面是一类,下面是一类,相当的离谱.主要原因就是y值的取值范围很大,从-4000 ~ 4000,而x轴只有-5~20,熟悉kmeans算法都清楚该算法中距离度量用的是欧式距离,因此x轴的数值就变得无关紧要.所以数据预处理没做好,很多模型都将不生效.值得注意的是,scaling在数据预处理中并不是强制的,习惯用树模型的朋友们也很清楚对树模型而原创 2021-08-20 16:34:57 · 737 阅读 · 0 评论 -
R语言-几种处理重复ID的方法
一、 概述重复,特别是针对一些样本名称的重复问题的处理,是我在进行生信分析时经常遇到的。一种常见的解决策略是先找到重复之处,然后去重。但如果我们想要保留全部的重复ID呢?一个简单的例子生成一个非常简单的带重复的序列:r$> data = c("a", "b", "c", "d", "a") r$> data原创 2021-08-03 14:46:32 · 7674 阅读 · 0 评论 -
分层数据:Cochran-Mantel-Haenszel (CMH)检验在关联分析中的应用
1. 概述Cochran-Mantel-Haenszel, 简称CMH检验,是研究两个我们关注的分类变量之间关联性的一种检验方法。但有时数据除了我们研究的变量外,还混杂或隐含了其它的变量,如果将这些变量纳入分析中,则有可能得出完全不同的结论,著名的Simpson悖论就是这个问题的典型案例。换句话说,在2 x 2 表格数据的基础上,引入了第三个分类变量,称之为混杂变量。混杂变量的引入使得该检验可以用于分析分层样本,作为生物统计学领域的一种常用技术,该检验常用于疾病对照研究。美国法律学家辛普森(Sim原创 2021-06-12 19:32:45 · 19574 阅读 · 1 评论