
Statistics
文章平均质量分 71
慢游
这个作者很懒,什么都没留下…
展开
-
统计学 学习笔记 (一)—— 学统计学需要理由吗?
统计学学习动机,统计学的概念及数据种类。原创 2011-03-30 21:11:00 · 2581 阅读 · 0 评论 -
关于因果关系的一点思考
从开始接触临床研究的方法论到现在,非常深刻的一个印象就是临床研究注重因果关系(Causality)的验证。比如设计一个随机对照试验(RCT)验证某种干预(药物、手术等)对某个临床结局的关系。所采用的主要方法就是控制所有对结局可能有影响的因素,(理论上)只让关心的干预方式在人群中有变异,并观察最终的结局的变化,建立干预对结局的关系。由于在试验设计的时候就让干预先发生,结局后发生,且在作用的过程中控制原创 2016-11-06 10:12:05 · 3116 阅读 · 1 评论 -
回归分析:预测 VS 因果分析
在学习或者使用机器学习的方法时,回归分析可以说是最常用的一种方法了。今天朋友推荐Dr. Paul Allison的一篇博文,讲回归分析最常用的两种方式:预测和因果分析。觉得对医学信息学里面对回归分析的使用有很大的帮助,于是拜读了一下。下面是对于其中主要观点的总结。Dr. Allison是统计学方面的大牛,写了很多本统计学方面的书。最厉害的是他的教学。不管面对什么样的学生,他都能很有效地教授统计原创 2016-10-27 09:40:47 · 10720 阅读 · 0 评论 -
A Tour of Machine Learning Algorithms
最近和做临床研究的大夫交流,他提出一个问题:所谓大数据分析的底层方法论是否适合用于临床研究?众所周知,临床研究目前主要采用的是流行病学的方法论,而底层基础数学理论是统计学。现在大数据分析方法中,主要部分是机器学习、模式识别等。我们知道,机器学习整合了大量统计学的方法,也有很多新的方法。但是,两个学科对于分析所要达到的目标其实预期不一样。统计学更注重逻辑的严谨性,而机器学习更看重学习的结果。那机转载 2016-11-04 16:28:08 · 1424 阅读 · 0 评论 -
统计学和机器学习之间的区别
最近做医学数据分析的结果展现,提到了两个问题:1. 机器学习方法相比较传统统计学方法而言,能产生什么新的结果?2.这些新的结果能不能用统计学理论来解释?于是简单Google了一下。很不幸,没有找到专门针对医学分析的,倒是发现一篇博客,讲统计学与机器学习、数据科学的区别。个人觉得挺有道理的。摘录主要思想如下。 1. 统计学的主要特点?文中提到,统计学家最重要的任务是处理由采样引原创 2016-10-26 06:59:47 · 6312 阅读 · 0 评论 -
统计学 学习笔记 (三)—— 掌握数据的整体状态 数据的变异性
数据的变异性 从上节的分析可看到,均值、中值、众数等可以反映数据组的集中趋势。但为了了解数据的变异性,光有这些集中趋势量度是不够的。比如下面的例子:7, 6, 3, 3, 13, 4, 4, 5, 44, 4, 4, 4, 4 从集中趋势来看,这三组的均值都是4。但明显它们之间的数值不一样。 数据的变异性(散布,离散度)可看作是对不同数值间的差异性的度量。直观来说,上面第一组数据组数值之间相差比较大,而第三组数据组中任意数值之间相等无差异。而当我们在比较“数值之间的差异原创 2011-04-12 21:34:00 · 6399 阅读 · 0 评论 -
贝叶斯理论——一种由表及里的方法
贝叶斯理论介绍 贝叶斯理论说,你如果观察到了一个现象,表象我来告诉你由这个现象出发寻找真象的方法。P(真象|表象)不管这个真象存不存在,P(真象)不管这个现象大家以前见没见过,P(表象)也不管有没人知道什么样的真象会导致这个现象,原创 2016-03-25 17:18:19 · 1199 阅读 · 0 评论 -
统计学 学习笔记 (七)—— 回到现实:得不到数据的整体怎么办?
又有这么久没更新了,加油加油。(以下讨论基于《医用统计方法》的相关章节,就不一一标明了。)在上面的所有讨论中,我们都假设拿到的数据集是一个整体。但在医学统计学中,用某个数据的全集来做分析和研究是不现实的。一方面,很难得到全部数据;另一方面,医学领域的数据集全集往往数量非常庞大,很难直接用统计学工具计算出来。比如要研究某市所有60岁以上得糖尿病的老年人的某项治疗情况,就是一个非常原创 2011-12-15 15:30:47 · 1317 阅读 · 0 评论 -
统计学 学习笔记 (五)—— 掌握数据的整体状态 数据的分布特性
从 统计学 学习笔记 (四)—— 掌握数据的整体状态 直方图 中的直方图反映出了一个可能性:既然一组数据的分布可以被表示为一条曲线,而且从这条曲线出发,可以得到上面所说的大部分指标,那么,这条曲线是否可以用数学的形式表示出来呢?初中数学告诉我们,曲线可以表示为一个数学公式。只不过不一样的曲线,对应的公式不同。有了这个公式,我们就可以用“一个说法”来表示一组数据到底是怎么个整体情况。相比较直原创 2011-08-26 09:07:56 · 4867 阅读 · 0 评论 -
统计学 学习笔记 (六)—— 掌握数据的整体状态 标准正态分布
在统计学 学习笔记 (五)—— 掌握数据的整体状态 数据的分布特性 中介绍的正态分布中,均值和标准差都具有实际意义,因此正态分布曲线也代表了实际的指标,有自己的度量衡。这样就导致不同数据之间的正态分布曲线不具有可比性。为了便于分析应用,需要对正态分布进行标准化。从前面说的正态分布曲线中,我们可以得到横轴上任意一个x值的表示方法:x=μ+ uσ将上式进行转换,就可以得到以u值为横轴,以0原创 2011-12-16 09:36:52 · 2676 阅读 · 0 评论 -
统计学 学习笔记 (九)—— 总体与样本 统计学意义检验的进一步讨论
前面统计学意义检验的例子描述了进行检验的详细过程,看起来逻辑很复杂,而且只介绍了如何将某样本均值和某总体均值的差别进行比较。这样不免会让人怀疑:这种检验方法对别的场景还适用吗?因为接触过统计学的人都有点印象:进行统计学意义检验的方法实在是太多了!带着同样的疑问, 接下来拜读了《医用统计方法》中关于配对样本及两样本均数差别的统计学意义检验,由此归纳了几条“通用法则”,用以说明进行统计学意义检验的原创 2011-12-20 14:50:04 · 3782 阅读 · 0 评论 -
统计学 学习笔记 (八)—— 总体与样本 统计学意义检验
(下面的讨论有些基于《医用统计方法》的相关章节,有些是个人理解,陈述不当之处敬请谅解。) 目录1. 为什么要进行统计学意义检验?2. 举例:统计学意义检验的基本步骤3. 讨论:统计学意义检验的应用1. 为什么要进行统计学意义检验?在上次的讨论中提到,由于数据的整体很难得到,只能抽取有限的样本进行计算。而由样本的状况来估计和推测整体数据的状况,就成为必须要做的事情。通俗点原创 2011-12-19 09:22:02 · 7337 阅读 · 0 评论 -
统计学 学习笔记 (四)—— 掌握数据的整体状态 直方图
直方图 除了上面各种描述数据整体状态的数值类指标,另外一种更形象的描述方法就是画图。最容易想到的就是以数据组的各个数值为横轴,各个数值在组中出现的次数为纵轴作条形图,即所谓的直方图。 对stroke_clean.sav中的age做直方图,连同数值类指标,如图3原创 2011-04-13 20:04:00 · 6830 阅读 · 0 评论 -
统计学 学习笔记 (二)—— 掌握数据的整体状态 数据的集中趋势
掌握数据的整体状态 如果只是看到一堆数据,杂乱无章地排在一起,人很难看出它们到底反应了什么信息。而各种数据分析技术的发展,却要求我们在分析之前就能对数据从整体上尽可能把握特性,从而为后面的分析方法的选择及分析结果的理解提供可靠的依据。 统计学中对于一组数据的整体状态,提供了多方位多角度的衡量指标。从数值的角度,可以从两个方面进行描述:数据的集中趋势(central tendency),数据的变异性(variability)。从图示的角度,可以通过数据组的频数分布(frequency dist原创 2011-04-01 20:49:00 · 6920 阅读 · 2 评论 -
高维数据探索 (High-Dimensional Data Exploration)
在医学领域做数据分析,经常把数据先整理成一张大宽表,然后再进行诸如疾病风险预测之类的建模。这张大宽表每行代表一个患者(case)的数据,而且通常会包含非常多列,每列对应某一种数据(feature)比如患者基本信息、诊断、检查结果等。这样的数据如果有非常多的行和列,则可以被称作是高维数据(High-DimensionalData Exploration)。在进行具体建模分析之前,非常重要的一步是原创 2017-01-03 14:35:52 · 5152 阅读 · 0 评论