- 博客(342)
- 收藏
- 关注
原创 R语言——数据整理3
例如,+运算符能计算两个数据字典的综合,但sum函数能计算多个输入的总和。sum(a,b,c,d,e)相当于Reduce("+",list(a,b,c,d,e))这种说法有点令人头晕,你需要了解的是:x[order(x)]将返回与sort(x)相同的结果。Negate函数是接受一个谓词(即一个返回逻辑向量的函数)并返回一个刚好相反的谓词。Reduce("+", list(a, b, c, d, e))相当于((((a + b) + c) + d) + e)Position函数的行为向which函数。
2025-04-05 01:00:00
132
原创 R语言——数据整理2
从另一个角度看,每一列中的头骨测量数据都是同一类型的东西(即测量值),只是测量的方式不同。因此,另一种表示该数据的方式是:每个鹿都有 4 行数据,每行有以下几列:一列是和之前一样颅骨的 ID(所以每个值将被重复四次),一列为测量值,还有一列用于解释本行所在的测量类型的因子。它的每一列包含了对某种类型的鹿的测量结果。在 plyr 包中的mutate函数采取了另一种方法,它接受新的和更改的列,并把它们当成“名称 - 值” 对。我们还可是使用na.omit函数,它能删除数据框中的所有带有缺失值的行。
2025-04-04 01:00:00
207
原创 R语言——数据整理1
在alpe_d_huez循环数据集中,DrugUse列中的数值被编码为“Y”和“N”,而不是TRUE和FALSE。grep、grepl和regexpr函数都能够找到与模式相匹配的字符串,sub和gsub函数能够替换匹配的字符串。在下例中,我们将匹配一“m”开头的(^)、后面跟着一个可选的(?我们可以用str_count计算出它们在每个名称中的出现次数,然后用sum来对所有统治者求和计算出总的出现次数。如果想把name列进行拆分,可以使用str_split(或用R基本报中的strsplit,作用基本一样)
2025-04-03 01:00:00
306
原创 R语言——获取数据3
DBI包为访问DBMS提供了统一的语法——目前的 SQLite、MySQL/MariaDB、PostgreSQL和 Oracle都能支持,它还提供了一个封装了JDBC(Java Database Connectivity)API的函数。对于PostgreSQL、Oracle和JDBC来说,它们分别需要PostgreSQL、ROracle和RJDBC包,它们的数据库名也是其驱动程序的名字,与SQLite和MySQL一样。对于MySQL数据库来说,则需加载RMySQL包,并设置驱动器类型为“MySQL”
2025-04-02 01:00:00
649
原创 R语言——获取数据2
foreign包中包含了使用read.ssd读取SAS永久数据集、使用read.dta读取Stata的DTA文件、使用read.spss读取SPSS数据文件的方法。使用read.xlsx2的运行速度更快。read.table(以及其衍生函数,例如read.csv)接受一个URL作为参数(而不是一个本地文件),它会在导入数据之前将副本下载到一个临时文件中。R可以使用h5r包(以及在Bioconductor中的rdhf5包)读取分层数据格式V5[HDF5]文件,亦可使用ncdf包读取网络通用数据格式。
2025-04-01 01:00:00
473
原创 R语言——获取数据1
在上图这种情况,我们不能仅调用read.csv就把所有东西都读出来,因为不同的数据块中所含有的字段数量不同,而且每个字段也确实不同。更多高级选项包括:覆盖默认的行名、列名和类,指定输入文字的字符编码,以及输入的字符串格式的列如何声明。如果文件的结构松散,更简单的做法是:先读入文件中的所有文本行,再对其内容进行分析或操作。如果我们想访问任意数据集里的数据,只需调用data函数,传入数据集的名称及其所在的包名(如果此包已经加载,可省略这个packages参数)R能从各式各样的来源中读取,且支持大量的文件格式。
2025-03-31 01:00:00
1155
原创 R语言——日期和时间2
如果我们的日期数据的形式有所不同,可以使用lubridate提供的其他函数(ydm、mdy、myd、dmy和dym)。这些函数都有相关的函数用于指定特定的时间格式,例如ymd_h、ymd_hm和ymd_hms。如果我们的日期不在以上任何一种格式中,则使用更低级的函数parse_date_time来实现。“持续时间”(Duration)指定的时间跨度为秒的倍数,所以一天的总时间是86400秒,一年的时间3156000秒(86400×365)。lubridate是在日期处理的过程中,使代码的可读性更强。
2025-03-30 01:00:00
1787
原创 R语言——日期和时间
我们可以使用strptime函数(string parse time的简称),它将返回POSIXlt日期(还有as.POSIXct函数和as.POSIXlt函数,调用它们时,如果输入的是字符,那么它们只是strptime的封装函数)。下例中,%I表示小时(12小时制),%p是AM/PM指示,%A是星期几的全称,而%B是月的全名。负的时间在UTC的东边,正的在西边。如果觉得strftime不好记,我们可以使用format函数来轻松完成日期的格式化,与strftime函数的使用方法几乎是一样的。
2025-03-29 01:00:00
809
原创 R语言——包
与库位置的默认设置相关的一个问题是,当我们升级R时需要重新安装所有的包。这是最安全的行为,因为不同的R常常需要使用不同版本的包。installed.packages函数将返回一个数据框,它包含了R所知道的我们电脑上的所有包的信息。最后两个值,一个是特殊的始终被称为Autoloads的环境,另一个是base包。R安装时就自带的包(base、stats以及其他大概30个)都存储在我们安装R的library子目录中。库(library)是我们电脑上的文件夹,而包就存储在文件夹内的文件中。(2)库和已经安装的包。
2025-03-28 01:00:00
657
原创 R语言——高级循环2
mapply是“多参数列表应用”(multiple argument list apply)的简称,它能让我们传入尽可能多的向量作为参数,这解决了上面的第一个问题。常见的用法是传入一个列表,再传入另一个列表作为前者的名字,这就解决了第二问题。有点烦人的是,为了任意数目的向量参数,参数的顺序改变了。plyr包中最常用的函数是ddply,它的输入和输出都是数据框,它可以替换tapply函数。llply 的输入参数是列表,它将函数应用于每个元素上,并返回一个列表,这使它成为 lapply 的一个替代函数。
2025-03-27 01:00:00
575
原创 R语言——高级循环1
和前面一样,它的输入参数是一个列表和函数,但vapply还需要第三个参数,即返回值的模板。现在,假定生成均匀分布随机数的unif函数不是矢量化的,那么rep函数每次都将重复出现相同的随机数,而replicate函数每次的结果都不相同。下例中,将分析某人上下班时使用不同交通工具所花费的时间:time_for_commute函数用sample随机挑选一种交通工具(小汽车、公交车或自行车),然后用rnorm或rlnorm找到一个正态分布或对数正态分布的行程时间(具体参数取决于所选的交通工具)。
2025-03-26 01:00:00
837
原创 R语言——循环
因为for循环操作于向量中的每个元素,所以它提供了一种“伪向量化”。注意,R的for循环几乎总是比其对应的向量化运行得要慢,而且往往是一到两个数量级的差别。在每个循环中,迭代器变量会从向量中取得一个值。它不是先执行代码再检查循环是否应该结束,而是先进行检查再执行代码。下面这个代码将反复执行,直到我们按下escape键、退出R为止。虽然向量化意味着我们可能并不需要大量使用它们,但在需要重复执行代码时,它们是非常有用的。一般来说无限循环不是我们想要的,因此需要一个break语句来跳出无限循环。
2025-03-25 01:00:00
359
原创 R语言——流程控制
它的常见用法是:第一个参数为返回字符串的表达式,其后的参数为第一个参数相匹配时的返回值。它们应与第一个向量的长度相等(如果不等,那么第二个和第三个参数中的元素将重复或忽略,以使它们与第一个参数的长度相同)。如果条件参数中有缺失值,那么结果中的相应位置也是缺失值。在这种情况下,其余的参数不需要名字——如果第一个参数结果为1,那么将返回第二个参数的结果;在上面这种情况下,如果我们要测试的整数非常大,这将相当麻烦,因为我们需要提供很多参数。如果if的条件值为FALSE,这会执行else只有的代码。
2025-03-24 01:00:00
718
原创 R语言——因子
如果我们有一些脏数据,例如打错了的数字,在数据导入的过程中,R会将他们解释为字符串。在下例中,其中一个数字有两个小数点,诸如read.table的导入函数将无法把这样的字符串解析为数字格式,而会默认把这一列转换为字符向量。一个汇总数值变量的方法是计算有多少个值落入不同的“组”(bins)中,cut函数能将数值变量切成不同的块,然后返回一个因子。在这种情况下,我们只需指定第一个水平的值,但多数情况下,使用factor函数来设置水平值。为了平衡数据,使到每个水平的数据点的数目相等,可用gl函数来生成因子。
2025-03-23 01:00:00
707
原创 R语言——字符串
在它传入的参数向量中,每个元素都能够自我循环以达到最长的矢量长度,然后字符串就被拼接在一起,中间以空格分开。formatC可以让我们用C语言的格式化风格来指定使用固定型或科学型的格式、小数的位数以及输出的宽度。将光标移动到下一行是通过打印换行符\N完成的(在R中,不要使用\r或\r\n来打印换行符,因为\r会将光标移动到当前行的开始并覆盖我们所写的内容);在我们的例子中,某些词最后的逗号有些烦人。与之相反,如果在被双引号引用的字符串中使用单引号,或在单引号引用的字符串中使用双引号,则并不需要对其进行转义。
2025-03-22 01:00:00
1543
原创 R语言——函数
如上图所示,rt函数需要3个输入参数:n是要产生的随机数的数目,df是自由度值,ncp是一个可选的非中心参数。以 hypotenuse(y= 24, x = 7) 为例, 虽然传递变量的顺序是“错误” 的, 但 R 仍能正确地判断出哪个变量应被映射到 x, 哪个应被映射到 y。这里,hypotenuse是我们正在创建的函数,x和y是它的参数(形参),在大括号中的内容是函数体。当R在h环境中无法找到一个名为y的变量时,它会在h的父环境(即定义了y的用户工作区(即全局环境))中搜索,然后再计算结果。
2025-03-21 01:00:00
745
原创 R语言——环境
环境本身也是另一种类型的变量,我们可以像对对待其他变量一样随意分配和操作它们,并将其以参数的形式传递到函数中。所有的环境都是嵌套的,这意味着它们必须有一个父环境(除了位于顶端的特殊环境——空环境以外)。默认情况下,exists和get函数也将在父环境中寻找变量。例如,我们在命令提示符下分配一个变量,它会自动进入全局环境(也称用户工作区)中。当我们调用函数时,将会自动创建一个环境,用于存储与此函数相关的变量。在后一种情况中,还可以使用list2env函数,它在创建环境中更为灵活。
2025-03-20 01:00:00
292
原创 R语言——NULL和数据框
subset函数需要有3个参数:一个数据框,一个行的条件逻辑向量,以及一个需要保留的名字向量(如果最后这个参数被省略了,那么讲保留所有列)。对于数据框,length函数的返回值与ncol的返回值相同,而不是数据框元素的总数。请注意,每列的类型可与其他列不同,但在同一列中的元素类型必须相同。如果我们只选择一个列,那么也可以使用列表样式的索引(带有正整数或名称的双方括号,或者带有名称的美元符号运算符)。事实上,几乎所有用于矩阵的函数都可以用在数据框上,例如,nrow、ncol和dim函数的使用与矩阵一样。
2025-03-19 01:00:00
658
原创 R语言——列表
对于这样的列表,可用unlist函数将其转换为何量(对于混合类型的列表, 有时技术上可行, 但没什么用)当我们使用单方括号的索引,那么将返回只带一个NULL元素的列表。如果列表中每个元素都是标量值,则也可以使用之前出现过的函数(as.numeric、as.character等)将其转换为向量。如果输入的是一个列表,is.list函数将返回TRUE,否则将返回FALSE。由于每个元素的类型可以不同,将两个列表相加或相乘没有任何意义。列表与向量一样,也是有长度的,其长度是列表顶层元素的数目。
2025-03-18 01:00:00
923
原创 R语言——矩阵和数组
例如:两个数组在相加时大小必须相等,而矩阵相乘时第一个矩阵的行数必须和第二矩阵的列数相等。与nrow和ncol相对的函数是NROW和NCOL,它们把向量看作具有单个列的矩阵。可以使用array函数创建一个数组,为它们传入两个向量(值和维度)作为参数。nrow和ncol也能用于数组,将分别返回第一个和第二个维度。和向量中的运算一样,标准算术运算符(+、-、*、/)将以相同的方式按元素来处理矩阵和数组。对于矩阵和数组,dim函数将返回其维度的整数值向量。对于矩阵,函数nrow和ncol将返回行数和列数。
2025-03-17 01:00:00
408
原创 R语言——向量
seq.int可以创建一个序列,序列的范围由两个数字指定,只需两个参数,原理与冒号运算符完全相同。我们可以用冒号运算符 : 来创建某个数到另一个数的数字序列,以及用c函数来拼接数值和向量,以创建更长的向量。它们的长度为字符串的数目,而非每个字符串中字符数的长度。对于已命名的向量,给向量传入命名的字符向量,将会返回向量中包含这些名字的元素切片。必须强调的是,虽然我们可以在不同长度的向量之间做运算,但这并不意味着应该这样做。给向量传入一个逻辑向量,它会返回一个向量切片,里面只包含索引为TRUE的元素。
2025-03-16 01:00:00
530
原创 R语言——变量
当操作因子水平的内容时(常见的例子是:清理命名,例如,把所有男性字符统一为“male”,而非“Male”),最好先把因子转换成字符串后再处理,以便充分利用字符串操作函数。除了我们已知的数字类和逻辑值,向量还有其他三个类,它们分别是:用于存储文本的字符character,存储类别数据的因子factor,以及比较少见的存储二进制数据的原始值raw。在这个命令中,ls列出所有的变量名,"^is"是一个正则表达式,它意味着“匹配所有以is开头的字符串”,而baseenv函数则返回base包中所有的环境。
2025-03-15 01:00:00
1372
原创 R语言——科学计算
在R中,向量化有几种含义,其中最常见的含义是:运算符或函数能作用于向量中的每个元素,而无需显式地编写循环语句(这种内置的基于元素的隐式循环也远远快于显式地写循环语句)。向量是数值的有序集,在统计学中极其重要,因为通常的分析对象是整个数据集,而不是一条数据。系统的保留字也不是允许的,如if和for。其他两个比较有用的处理逻辑向量的函数是any和all,输入向量中至少包含一个TRUE值或只包含TRUE值,他们将分别返回为TRUE。R中的变量名是区分大小写的,大写的C函数与小写的c函数作用完全不同。
2025-03-14 01:00:00
981
原创 动态网页抓取——解析真实地址抓取
但是,由于主流网站都使用JavaScript展现网页内容,和静态网页不同的是,在使用JavaScript时,很多内容并不会出现在HTML源代码中,所以爬取静态网页的技术可能无法正常使用。上述的教学,只是爬取文章的第一页评论,十分简单。例如,我们打开天猫的某商品的产品页面,并点击“累计评价”,我们可以发现上面的url地址没有任何改变,并没有重新加载整个网页,对网页的评论部分进行更新。上述的结果比较杂乱,但是它其实是 json 数据,我们可以使用 json 库解析数据,从中提取我们想要的数据。
2025-03-13 01:00:00
792
原创 基因型—性状双标图3
这些模型的思路也可以拓展到两个以上性状的情形。只要有可靠的基因型一性状数据,各性状都赋予了特定的权重,就可以基于显性或加性模型计算各基因型以及各个潜在的杂交组合(即所有基因型间可能的两两组合)的选择指数。基因型—性状数据分析可以了解目标环境中主要育种目标性状间的关系,以及参试基因型的性状特点,这些认识对制定切实可行的育种目标和恰当的选择策略是十分重要的。(1)如果基因型A在一个性状上表现好,而基因型B另一个性状表现好,就可以期望在这两个基因型的杂交后代中找到两个性状表现都好的组合,这就称为显性模型。
2025-03-12 01:00:00
533
原创 基因型—性状双标图2
为了深入研究制粉燕麦4个主要性状(GRT、KG/HA、OIL、BGL)之间的关系,GT双标图简化为只包含这4个性状的图。该双标图突出显示了南部品种生态区制粉燕麦育种的主要挑战,即籽粒产量与B-葡聚糖含量间的负相关,而在北部品种生态区中育种的主要挑战是麦仁率与B-葡聚糖含量之间的负相关。含油量和蛋白质间的正相关,以及蛋白质含量与麦仁率间的负相关特性对制粉燕麦都是不利的。这就强调了在该品种生态区内品种对冠锈病的抗性是非常重要的。在双标图模式研究的基础上,性状之间的相关性可以进一步验证和定量研究性状间的关系。
2025-03-11 01:00:00
804
原创 基因型—性状双标图1
由上述GT双标图可得出两点结论:首先,GT双标图是图示性状间关系及基因型性状贴点的有效方法。双标图不能解释大部分数据变异时,对性状间相关性的接近可能并不精确,但仍然为解释性状间最重要的相关性提供了有用的信息。其次,尽管双标图是一个有效的工具,单点试验GT双标图中模式的可行性很有限,不能据此推定其他试验也表现为相同的模式。“基因型—性状”(GT)双标图模型与GGE双标图相比,有两点不同之处:①GGE双标图中的术语“环境”或“试点”由GT双标图中的“性状”代替。GT双标图的解释与GGE双标图类似。
2025-03-10 01:00:00
411
原创 基因型—环境两向表数据分析——试点评价
再次,即使是合适的试点在品种试验中也可能存在冗余的问题,多余的试点增加试验成本,却不能增加关于基因型的信息。在基于SD定标和h加权数据的GGE双标图中,试点向量的长度近似于试点的遗传力平方根。因此,GGE双标图中的试点向量长度可以表示试点的h或其与其他试点相关性的强度。品种生态区内的试点都是正相关,如图试点间的锐角所示,可见试点对其所在品种生态区的代表性很好。基于SD定标和h加权数据的GGE双标图因为具有下述特点,而最适合用于试点评价:①试点向量的长度近似于h,即试点的遗传力平方根;双标图中有两个小圆圈。
2025-02-28 01:00:00
1643
原创 基因型—环境两向表数据分析——基因型评价
这样在品种生态区内基因型的差异就更明显。选择广适性的高产品种是育种的理想目标,但在存在这样的情形,即在GE效应很大并由明显品种生态区分化时,这样的目标很难实现。本例中基因型的GGE距离与它们到AEA轴的投影是高度相关的(r=0.93),说明基因型主效是GGE距离主要决定因子,只是因为品种的稳定性存在差异,二者之间才不完全相关。2008年在该生态区最好(产量最高)的品种是“Sylva”、“1234-1”、“1234-2”和“Rigodon”,它们都好于前面在图8.7中鉴别出的广适品种“Optimum”。
2025-02-27 01:00:00
746
原创 基因型—环境两向表数据分析——品种生态区划分
本例中籽粒产量的GGE双标图仅解释了G和GE总变异的53.6%,说明籽粒产量的GE/G比率更大,GE的构成也更为复杂。下图就是“谁赢在哪里双标图”,与前一个功能图相比,仅仅是去掉了试点向量,而增加了多边形和从原点到多边形各边的垂线。下面这张图标有8.5的双标图与上面那个标有8.4的双标图是相同,只是图8.5采用了基因型聚焦的奇异值分析方法。GGE双标图“谁赢在哪里”功能图确实解释了示例中可能包括一个试点间密切相关的品种生态区和一个试点间关联松散的品种生态区。试点间的夹角是表示试点间G与GE相对大小。
2025-02-26 01:00:00
1697
原创 基因型—环境两向表数据分析
各试点产量的基本统计量列于下标,各试点的产量水平、标准误(SE)、标准差(SD,表型方差的平方根),遗传力(H)和变异系数(CV)的差异明显。(1)“PC1=80.8%,PC2=7.8%,and Sum=88.6%”表示构成双标图的前两个主成分(PC1和PC2)共解释了用于奇异值分解的两向表中总变异的88.6%。当然,基因型—试点数据分析的重点仍然是针对目标性状,尤其是最重要的性状。(5)“SVP=2”指双标图采用的是基于环境中心化的奇异值分配方式,这样的双标图适合于展示试点间的关系。
2025-02-25 01:00:00
471
原创 单点试验数据分析2
这就表示重复2和3的数据是正确的,而重复1的数据是有问题的。剔除重复1数据后,这套数据的基因型效应就显著了(P=0.002),CV值也成为较合理的11.5%,其后,通过分子指纹图谱方法对重复1的基因型标号进行识别和校正,结果表明重复1的种子样品被按相反的次序处理了,使得第一个品种被标记为最后一个品种。如果一个试验点的方差分析结果表明:所有形状,包括一些明显的具有高度遗传力的性状如株高和抽穗期,基因型差异均不显著,所有形状的遗传力接近于0,CV值很高。下图中,6个中孚的5个重复相互为正相关,图中显示为锐角。
2025-02-24 01:00:00
557
原创 单点试验数据分析1
上表中的第一部分为方差分析报告的常规内容,包括各变异来源的自由度(DF)、平方和(SS)、均方(MS)、F值及其显著概率水平。表中下部列出了试验数据的主要统计量,包括观察值数、重复数、试验平均值、标准误差(SE)、标准差(SD)、5%水平的最小显著差异(LSD5%)、两两比较的标准误、变异系数(CV%)、平均值与LSD5%比率、遗传力(H)、G/(G+误差)的平方和比率,以及重复间的相关系数r_g。通过多年多点的品种试验,才能对优良品种进行可靠的鉴别和选择,而点单试验数据对品种评价的能力有限。
2025-02-23 01:00:00
906
原创 双标图解释中的常见错误
基于任意的两向表都可以生成双标图,但双标图的意义取决于所展示的数据表的意义。GGE双标图中的模式可以称为“GGE模式”,这种模式包括:①环境在对基因型的鉴别和排序方面的相似性或相异性;由于数据中最主要的信息都集中在PC1和PC2上,这些双标图(如PC1和PC3双标图、PC2和PC3双标图)所展示的模式与基于PC1和PC2双标图相比是微不足道的。当采用聚焦基因型的奇异值分配时,GGE双标图中基因型间的距离近似于其相应的欧氏距离,并因此体现其对环境响应的相似性。8、GE双标图可以与GGE双标图做类似的解释。
2025-02-21 01:00:00
409
原创 双标图分析的常见问题1
第一组试点数据子集的双标图,在5个可能的主成分中只有第1主成分的IR>1.0,所以,这个CGE双标图在展示该子集数据模式上是很充分的。图中的小圆圈代表5个试验点的“平均环境”,通过平均环境和双标图原点的直线称为平均环境轴(AEA),轴上的箭头所指的方向代表基因型的高产方向。总之,坐标轴的单位并不重要,重要的是双标图必须按照相同的刻度绘制,即x轴和y轴的物理单位相同。表中“IR”提供了这样的信息,IR大于1.0的主成分包含了数据的有用信息,而小于1.0的主成分并不包含有用的信息,因而也是没有意义的。
2025-02-20 01:00:00
691
原创 R语言——利用循环一次执行多个方差分析
我们进行方差分析时,多只进行一两次即可。但偶尔会遇到“在A因素下的不同水平对B因素进行方差分析”,为了提高分析效率需要利用循环函数进行方差分析。本例研究的是不同浓度的处理(nd)对品种(var)株高的影响。需求:对不同品种分别进行方差分析和多重比较,分析浓度(nd)对株高的影响。
2025-02-19 01:00:00
227
原创 R语言——作物区域试验方差分析及多重比较
根据作物区域试验报告,需对试验数据进行方差分析,其中区组是依赖于地点的;多重比较通常使用LSD法+字母法。
2025-02-18 01:00:00
203
原创 GGE双标图重新定标、奇异值的分配
由于行的主成分绝对值和列的主成分绝对值差异很大,尤其是f=0或f=1时,更是如此,直接绘制双标图很难实现可视化效果。,但这将是行向量夹角(即相对关系)、列向量间夹角以及行向量和列向量间夹角的改变,最终导致双标图的模式失真。,f值得改变将会改变双标图的形状,包括行和列向量的长度、行向量间的夹角、列向量间的夹角、行向量与列向量的夹角。在理论上f值可以取[0,1]区间内的任意值,对f值得选择并不影响双标图的内积特性。这表示奇异值完全分配给列因素,称为聚焦于列(或列度量)的奇异值分配,这样的分配方式适合于双标图。
2025-02-17 01:00:00
318
原创 数据中心化的5种类型
数据也可以用基因型均值进行中心化,基于基因型中心化数据的双标图包含了环境E和基因型—环境互作效应GE。基于双向中心化数据的双标图仅包含GE信息,故称为GE双标图,本示例中双标图解释了GE变异的91.4%。GE双标图在AMMI分析的文献中也成为AMMI2双标图。基于环境中心化数据的双标图包含G和GE的信息,称为GGE双标图。基于总均值中心化数据的双标图中包含了E、G和GE信息,示例中解释了E+G+GE总变异的88.3%。如果将未作任何中心化的原始两向表用于奇异值分解,这样的双标图就称为未中心化的双标图。
2025-02-16 01:00:00
356
原创 各种双标图对基因型评价的适用性
准确地说,下面的未中心化数据的双标图解释的平方和中97%是由CF产生的,而只有不足的3%的信息与E、G和GE有关。GGE双标图不显示环境的产量水平,但可以清楚的显示各环境中产量最高的品种。GGE双标图在区别品种差异方面优于数据未中心化的双标图,在揭示胜出品种方面比均值中心化的双标图也更准确,同时还可以对品种在全部环境中的平均产量进行正确排序。综上所述,GGE双标图是唯一与遗传力概念相符合的双标图,其展示的信息中只包含G和GE效应,所以也是唯一适用于基因型评价的双标图。3、基于环境中心化数据的双标图。
2025-02-15 01:00:00
916
seaborn常用数据案例
2024-04-21
python-活用pandas库数据集
2024-04-15
R语言+统计分析+源数据
2024-04-04
excel统计分析相关文件
2024-03-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人