- 博客(28)
- 收藏
- 关注
原创 R语言 统计篇之T-test 检验
例如:在治疗前后进行观察,或者对两个匹配的受试者进行不同治疗。或者测试一个样本是否来自均值不同于某个理论均值的群体。检验,df=17.776,因为要对不等方差进行调整。3、将一组数据与预期总体平均值进行比较:单样本t检验。重要的是,要确保数据分类整理,不遗漏观测数据;如果使用的是带有分组变量的长格式数据,则。等同于测试每对观测值之间的差值是否为 0。列中的数据是否来自一个真实均值为0的群体。当你想测试两个样本是否来自均值不同的群体。可用于带有分组变量的数据框或两个向量。1、比较两组:两个独立样本的。
2024-05-01 16:58:13
3899
原创 利用R语言自带函数快速探索数据
R Graphics Cookbook》 chapter2 Quickly Exploring Data 快速浏览数据为了非常快速地浏览数据,有时使用 R 自带的绘图函数很有用。
2024-04-30 10:22:16
1029
原创 R语言 数据整理篇之结构重塑
Cookbook for R》Manipulating Data ~ Restructuring 数据整理篇之数据结构重塑。
2024-04-29 11:05:17
794
原创 R语言 数据分组汇总:求平均值、标准差、标准误
有时,汇总数据框中会出现空的因子组合,即有可能出现的因素组合,但实际上并没有出现在原始数据框架中。由性别和条件的组合来分组:F-安慰剂、F-阿司匹林、M-安慰剂和 M-阿司匹林。4) standard error of the mean (均值标准误差)不同性别受试者,服用阿斯匹林或安慰剂前后的观测值以及变化差值。扩充:安排一步得出均值、计数、标准差、标准误和置信区间的函数。当你想按组对数据进行汇总(包括平均值、标准差等)如果数据中有NA值并希望忽略它们,设置。调用的每个函数,除了。
2024-04-27 13:07:04
6602
原创 R语言 数据框的长、宽格式转换
可以在重塑之前更改级别顺序,也可以在之后对列进行重新排序。,它将命名该列 “measurement”。,它将命名该列 “variable”;如果是列表或者是矩阵,改用。但是,像 SPSS 通常使用宽格式数据。R语言中的大多数函数希望数据是长格式。扩展:美化数据外观的举措 (同上)当你想把将数据从宽转换为长格式。如果要以编程的形式来使用函数。因子水平的顺序决定了列的顺序。将自动使用所有其他变量作为。,然后进行排序 (步骤同上)扩展:重命名变量列的因子。扩展:重命名变量列的因子。扩展:美化数据外观的举措。
2024-04-26 15:36:07
1672
1
原创 R语言 数据的整理与清洗(Data Frame 篇下)
要进行比较,首先将三个数据框与一列连接起来,该列标识每行来自哪个源数据框。有一个空白行,当它被读入时,因子列具有’ ’ ,这不应该是数据的一部分。有时候,在读入数据并对其进行清理后,会因子列中存在一些不该存在的。Note:这样操作是不会显示组内重复的。方法是从传递给函数的数据框中删除该列。要重新计算所有因子列的水平,使用。可以找到哪些行在不同的组之间重复。拆分数据框:将原始的数据框分出来。1、重复出现在多个数据框中的行。2、或仅出现在一个数据框中的行。忽略列:可以忽略一个或多个列。查找重复的行:使用函数。
2024-04-25 10:17:56
923
原创 R语言 数据的整理与清洗(Data Frame 篇上)
也可以使用矩阵形式的索引(matrix-style indexing)上面的示例通过将数据框视为列表(本质上是一列一列的向量)来索引。矩阵索引的缺点是: 只指定一列时,它会给出不同的结果。情况二:如果两个数据框中要匹配的列具有不同的名称,重命名列的方法三:使用R的字符串搜索和替换函数。它直接修改原本的数据框,不需要再重新赋值返回。重命名列的方法二:使用R自带函数。是为了确保整个字符串匹配。如果没有它们而有一个名为。重命名列的方法一:使用。添加或者删减列的方法很多。按列的位置或名字进行重排。
2024-04-24 15:23:36
855
原创 R语言 数据的整理与清洗(Factor篇)
但此时的顺序只是为了方便(钢笔、铅笔、画笔)–它将决定例如输出将如何打印,或图形的排列。导入数据后,您可能会有一个包含因子和其他类型向量的数据框,并希望重新计算所有因子的。R中的因子有两种:有序和无序,例如,{小,中,大}和{钢笔,刷子,铅笔}。这可能发生在数据导入过程中,也可能发生在删除某些行时。也可以使用R的字符串搜索和替换函数来重命名因子的。对于大多数分析,因子是有序的还是无序的并不重要。如果有任何一个不在列表中,它们将被替换为。更改水平顺序的一种方法是在因子上使用。1、如果因子是有序的,那么。
2024-04-23 17:10:40
918
原创 R语言 数据的整理与清洗(第二篇)
1、重新编码分类变量 categorical variable。也可以使用R的字符串搜索和替换函数来重新映射字符向量中的值。测量值<7的标记为“低”,将>=7的标记为“高”假设要添加一个新列,其中包含三个度量值的总和。的值,它也会匹配,而替换将是。如果没有它们,如果有一个名为。第二种方法:用R内置函数来做。是为了确保整个字符串匹配。或从现有数据列计算新数据列。最简单的方法是使用来自于。最简单的方法是使用来自。,并把它放在一个新列中。也可以用R的内置函数来。
2024-04-23 11:47:59
871
原创 R语言 写代码的正确姿势
良好的编码风格就像使用正确的标点符号。没有它你也能应付,但它确实让事情更容易阅读。与标点符号的风格一样,有许多可能的变化。好的风格很重要。因为虽然你的代码只有一个作者,但它通常会有多个读者。当你和别人一起写代码的时候尤其如此。在这种情况下,最好事先就一个共同的风格达成一致。
2024-04-22 18:59:15
738
原创 子集运算应用举例
Advanced R不同数据类型取子集的规律和子集运算原理可应用于多种场景subset()merge()但是了解它们是如何通过基本子集运算实现还是很有用的这将帮你处理现有函数处理不了的情况。
2024-04-21 13:58:36
1241
1
原创 子集运算规律
不带任何内容的子集设置与赋值一起使用非常有用,因为它将保留原始对象类和结构。所有子集运算符都可以与赋值运算符结合使用,以修改输入向量的选定值。只能用列名直接提取,而不能用储存在变量中的列名去提取。可以直接得到其内容(打破list框架)可以从列表中取子集,而且它只能返回。构成的,固然也可以使用。
2024-04-20 15:42:47
463
原创 生信小白菜之关于summarize函数的一切(part 2)
《R for Data Science》常用的摘要函数和summarize()搭配使用位置度量# 前面用过mean() 求均值# median() 求中位数# 即50%的x大于它,同时50%的x小于它# 举例not_cancelled %>% group_by(year,month,day) %>% summarize( avg_delay1=mean(arr_delay), # 平均延误时间 avg_delay2=mean(arr_delay[
2024-04-03 13:50:04
453
1
原创 生信小白菜之关于arrange、select函数的一切
无论升/降序tail(arrange(flights,arr_time)) # 取尾巴几行tail(arrange(flights,desc(arr_time))) # 一样的结果,取出来的都是NA值# 那么如何使缺失值排到最前面呢is.na(arr_time)) # TRUE、FALSE值逆转。
2024-03-31 15:50:57
629
1
原创 生信小白菜之GEO数据库简介及数据获取方式
看差异基因pheatmap包输入数据是数值型matrixdata.frame颜色变化是数值大小聚类树:层次聚类。
2024-03-21 22:46:28
5621
1
原创 生信小白菜之字符串、数据框、条件与循环专题
字符串是""内的所有东西# `yyl` 则是包括三个字符型数据的向量,即长度为3的向量class("yyl") # 返回"character"
2024-03-20 20:29:00
1257
1
原创 生信小白菜之ggplot2入门版教程
color=Species)) #这里颜色设置是在`aes()`中,是`aes`的参数,后接列名#而手动是在`geom_function()`中,是`geom_function`的参数,后接具体颜色#映射:根据数据某一列内容分配颜色#手动:把图形设置为一个或多个颜色,与数据内容无关。
2024-03-19 17:37:51
740
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人