
数据算法
文章平均质量分 95
生信了(公众号同名)
公众号:生信了
展开
-
卡方检验简介
例如,我们可能对两种治疗后患者的主观改善感兴趣(只使用“是”或“否”回答),而不是测量个体的 SLR。例如,直腿抬高 (SLR) 的受试者能够将腿抬高大于 0 度,这让我们可以计算两组的平均 SLR,并进行 t 检验。然而考虑到数据中的随机错误,我们没有足够的证据来说明观察到的差异表明了真正的潜在差异。我们检测的 p-value(任何 2×2 table 的卡方检验),是计算出的卡方值到坐标最右侧曲线下的面积。在这个例子中,我们的观测值是分类的而非定量的,所以我们应当关注比例而非均值。原创 2022-11-18 11:02:40 · 1550 阅读 · 1 评论 -
线性回归模型(OLS)3
本文是系列文章的第三篇。前两篇文章中:本文将介绍线性回归模型的模型评估。包括以下 4 个小节:1. 模型评估2. 示例:mtcars 数据集3. 模型推导4. 附录代码原创 2022-09-03 09:57:17 · 3435 阅读 · 0 评论 -
有趣有用的PCA——PCA压缩图片
PCA是数据降维的经典方法,本文给出了一个将PCA用于图片压缩的例子,并探索了标准化处理(normalization)对PCA的影响。文末还讨论了PCA推导第一主成分的过程。PCA (Principal component analysis,主成分分析) 是一个经典的数据降维方法,可以将高维数据映射到低维空间中,使得低维空间中点在新坐标轴(主成分)上的坐标间方差尽可能大。PCA被广泛应用于各行各业的数据分析,其中当然也包括生物数据的分析。讲解PCA的文章数不胜数,本文旨在作为一个学习笔记,不对PCA.原创 2021-10-03 10:32:59 · 10093 阅读 · 5 评论 -
R-概率统计与模拟(六)重要性采样
本文介绍了重要性采样(Importance Sampling)。本文篇幅较长,分为以下几个部分:重要性采样是什么重要性采样的应用示例不同的q(x)对结果有影响吗?Part1:重要性采样是什么前文《R-概率统计与模拟(三)变换均匀分布对特定分布进行抽样》和《R-概率统计与模拟(四)拒绝抽样》分别介绍了两种方法,可以根据已知的p.d.f.进行采样(抽样),使得采样得到的点符合目标分...原创 2020-02-19 10:04:37 · 3085 阅读 · 1 评论 -
R-概率统计与模拟(五)彩票连号、归纳法以及二项分布
多个独立且符合同一个伯努利分布的变量的和服从二项分布多个独立且符合同一个伯努利分布的变量的和服从二项分布这是一个基础的结论。我们可以用模拟其 p.d.f.\text{p.d.f.}p.d.f. 或者 c.d.f.\text{c.d.f.}c.d.f. 来看:模拟p.d.f.\text{p.d.f.}p.d.f.,用R语言中的 hist 函数画出模拟的概率直方图。图1模拟c.d.f.\...原创 2019-12-24 15:50:47 · 2600 阅读 · 0 评论 -
R-概率统计与模拟(四)拒绝抽样
本文介绍了如何进行拒绝抽样(Reject Sampling)。原创 2019-11-06 08:27:07 · 2276 阅读 · 0 评论 -
R-概率统计与模拟(三)变换均匀分布对特定分布进行抽样
题目二:条件期望题目三:拒绝抽样原创 2019-10-29 20:59:33 · 2684 阅读 · 1 评论 -
R-概率统计与模拟(二)
本文继续介绍一些和概率统计相关的模拟。前文《R-概率统计与模拟》介绍了一些用 R 进行概率模拟的实验,本文继续上次的工作,并在此过程中回顾一些相关的概率统计知识。一共五题:对pi值的估计(蒙特卡洛模拟经典示例)贝叶斯公式练习多个独立并符合同一个正态分布的变量的平方和符合卡方分布多个独立且符合同一个柯西分布的变量的平均值仍符合柯西分布马尔可夫链练习题目一:对pi值的估计(蒙特...原创 2019-10-10 10:24:45 · 989 阅读 · 0 评论 -
R-概率统计与模拟
本文记录了三个概率统计相关的小题目,以回顾一些概率统计的知识。正如笔者在前文《公众号一岁啦》中所说,近期在复习概率统计相关的知识。机缘巧合,笔者遇到了几个比较有意思的题目,和朋友们分享一下:这几个题目都是和概率统计相关,本来都是可以推演出精确的解,但是有意思的是,笔者从一位网友处得知这类题目可以用 R 来做模拟求得一个近似解。这是笔者之前从未尝试过的,所以动手一做:题目一:X10的期望值...原创 2019-09-26 11:18:07 · 1000 阅读 · 0 评论 -
算法(六)二叉堆获取最小的k个数
关键词:heap如果你有一个文件,里面包含20万行的整数,如何获取前k个最小的数?首先可以想到两个思路:将所有的数按从小到大排序,取前k个。先读入前k个数到一个数组中(大小为k)并按从小到大排序,然后每读入一个新的数就将其放入数组中合适的排序位置。当所有的数都按这个规则被处理后,最终留在数组中的k个数就是我们想要的。最近我学习了一种新的数据结构,那就是二叉堆(以下简称堆),用它来解决上...原创 2018-12-11 15:37:48 · 530 阅读 · 0 评论