- 博客(397)
- 收藏
- 关注
原创 用R语言生成指定品种与对照的一元回归直线(含置信区间)
在对品种的产量数据进行分析时,常用的、且比较简单的分析方法就是一元线性回归分析方法。我们可以用excel进行作图并生成回归曲线和方程,但无法绘制回归方程的置信区间。回归方程执行曲线可以让我们更直观看到品种在整个生态区不同环境条件下的产量稳定性。我们通常以某一点所有参试品种产量的平均值作为该测试点的环境值(即x值,也是下面代码中展示的env),我们分析的品种和对照品种自身产量均值就是y(也就是下面代码中展示的yield),我们的品种和对照品种名称放在一列,成为group列。
2025-10-31 23:02:07
301
原创 不等宽柱形图、克利夫兰点图、坡度图
有时候,我们需要再柱形图中同时表达两个维度的数据,除了每个柱形的高度表达了某个对象的数值大小(Y轴纵坐标),还希望柱形的宽度也能表达该对象的另一个数值大小(X轴衡坐标),以便直管地比较两个维度。其中geom_segment()函数根据起点坐标(x,y)和终点坐标(xend,yend)绘制两者之间的连接线,棒棒糖图的连接线为平行与X轴水平绘制,其长度对应X轴变量的数值。R的ggplot2包提供了geom_segment()函数可以绘制两点之间的直线,geom_point()函数可以绘制两根直线上的数据点。
2025-10-26 01:00:00
1614
原创 柱形图系列
在柱形图中,类别型或序数型变量映射到横轴的位置,数值型变量映射到矩形的高度。下图为中ggplot2包的geom_bar()函数直接绘制的单数据系列柱形图、多数据系列柱形图、堆积柱形图、百分比对接柱形图。在使用 R 中的 ggplot2 包绘制的条形图中, Y 轴变量和图例变量默认按照字母顺序绘制,可以参照上面的代码实现。在条形图中,类别型或序数型变量映射到纵轴的位置,数值型变量映射到矩形的宽度。柱形图的 X 轴变量一般为类别型和序数型,Y轴变量为数值型。①柱形图的x轴变量一般为类别型,Y轴变量为数值型。
2025-10-25 01:00:00
559
原创 R语言数据处理基础
分组运算操作:dplyr报的group_by()函数可以先对数据框依据分组的一个或多个变量分组,然后使用dplyr报的其他函数进行分组操作,如summarize()函数实现分组的汇总运算与aggregate()函数实现的结果一致;分组汇总操作:R内置函数aggregate()可以实现数据框的分组操作,“~”的左侧代表需要操作的变量,“~”右侧代表以其为依据分组的一个或多个变量,我们可以使用mean()、median()、sum()等函数实现取均值、中位数、求和等汇总运算。我们经常使用一维数据列表的数据框。
2025-10-24 01:00:00
1448
原创 R语言绘图基础2
R的ggplot2使用coord_polar()函数可以将坐标系从直角坐标系转换为极坐标系,具体语句为:coord_polar(theta="x", start=0, direction=1,clip="on"),其中,theta表示要极坐标化的中心轴,即X轴转化为圆周,Y轴转化为半径;guide_legend()函数用于离散边阿玲的图例,也可以用于连续变量。这样,平面上任一点P的位置就可以用线段OP的长度ρ,以及从Ox到OP的角度θ来确定,有序数对(ρ,θ)就称为P的点极坐标,记为P(ρ,θ);
2025-10-23 01:00:00
896
原创 R语言绘图基础1
(1)图元(graphical primitive)系列函数:geom_curve()、geom_path()、geom_polygon()、geom_rect()、geom_ribbon()、geom_linerange()、geom_abline()、geom_hline()、geom_vline()、geom_segment()、geom_spoke(),这些函数主要用于绘制基本的图表元素,比如矩形方块、多边形,可以供用户创造新的图表类型。而且通过stat_xxx()函数将常见的统计变换融入绘图中。
2025-10-22 01:00:00
1614
原创 R语言——树状图和热图
使用gplots包中的heatmap.2()函数也可以生成上图,而且heatmap.2()函数还提供了2个额外的特征,使图更容易理解:首先,左上角有一个键,表明了颜色与变量值之间的关系。想象一下,两个测量长度的变量,一个以英寸为单位,而另一个以英尺为单位,那么完全相同的距离将会记录为完全不同的数字,较大的数字对欧氏距离的影响较大。(agglomerative method),首先创建一个包含一个最匹配的集群,然后创建一个匹配度次之的集群,以此类推,知道所有的观测值都在一个大的群集中。
2025-10-21 01:00:00
592
原创 R语言——协同图
左下角的条表明左下角的图涵盖了 percent 不高于 12% 的州。该协同图似乎和之前提出的假设一致:参加考试的学生比例较低的州得分最高,参加考试的学生比例较高的州得分较低。上图似乎表明教育花费相对较少的州的 SATM 得分较高,而支出较高的州的得分相对较低。该数据集包括一个被称为 percent 的变量,它是参加 SAT 考试的应届毕业生的百分比。在某些情况下,我们可能需要找到精确的切割点,假设我们想要4张不重叠的图,并选择精确的切割点。有时,两个变量之间所呈现的明显的相关性可能是误导性的。
2025-10-20 16:01:35
346
原创 R语言——三维图
在这类图形中,两个变量绘制在x轴和y轴上,而第三个变量由图上的圆的面积或“气泡”表示。基础R中的symbols()函数可以创建气泡图,而DescTools包中的PlotBubble()函数更易于理解。我们还可以用car包的scatter3d()函数来生成3d图。这类图成为伪色图(false-color plot),可以用lattice包的levelplot()函数实现。参数col=SetAlpha(as.numeic(Gender)+3)是Gender的两个值的颜色不同,并按色阶用三步设置颜色。
2025-06-22 01:00:00
578
原创 R语言——散点图矩阵和相关性分析图
完全正相关时, r = 1,表明两个定量变量在散点图上的所有点正好在一条上升的直线上。首先,我们可以在矩阵的对角线上绘制每个变量的分布,比如绘制直方图、密度图、箱线图、QQ图,还可以为每张图添加最小二乘曲线。要绘制相关性分析图,首先必须定义一个相关矩阵(correlation matrix),该矩阵包含数据集中所有变量对的相关系数,有cor()函数实现。GGally 包中的 ggscatmat() 函数可以实现把一部分图放在矩阵的下半部,另一部分放在上半部,也可将散点图矩阵与相关分析图相结合。
2025-06-21 01:00:00
1344
原创 R语言——Q-Q图
对于这个数据集来说,我们可以比较男性顾客和女性顾客给的小费,或午餐和晚餐时给的小费。要实现这个需求,我们可以组织适当的数据子集,并绘制各组的QQ图。如果原始数据不满足分析给出有效结果的必要假设,有时可以应用数据函数(即变换)产生满足假设的数据,然后对变换后的数据进行分析。在图中,5 美元以下的情形看不出什么差异,但是高于5美元的小费更有可能是从男性顾客那里获得的。qqnorm() 函数,可以不用事先创建分位数变量就可以绘制QQ图,但仅用于检验数据的正态性。参考资料:R图形化数据分析。
2025-06-20 01:00:00
516
原创 R语言——Bland-Altman图
点代表了对象的两个测量值的平均值(水平轴)以及两个测量值之间的差值(垂直轴)。要计算协议限制,首先要找到差异的平均值(称之为m)和差异的标准差(称之为s)。这一点至关重要,如果Wright流计量器对统一对象的测量互不相同,那么试图评估与迷你流计量器的一致性是没有什么意义的。这是一张17个点的散点图,一个点对应研究中的一个对象。图上的点(x,y)被定义为x=一个对象的两个测量值的平均值,y=两个测量值之间的差值。Bland-Altman图用于评估两项测试技术之间的一致性,或测量的可靠性/可重复性。
2025-06-19 01:00:00
679
原创 R语言——高密度图
这不仅比向日葵图更加美观,而且也提供了更好的分辨率。例如,图中最大的黑点表示,受过大约 12 年教育(高中毕业)的人大多取得了 5~7 分的词汇成绩,但在向日葵图上是看不到这些情况。低学历的人词汇成绩偏低,分数随着受教育水平的提升而提升,这种看似合理的预期是否符合实际情况?上图的散点图并没有呈现清晰的趋势,因为这两个变量是离散的(discrete)。这和向日葵图相似,但重叠的点表示为区间(bin)中的总数,而不是点的形状。根据点的数量,这种类型的图在不同位置使用不同的符号。参考资料:R图形化数据分析。
2025-06-18 01:00:00
426
原创 R语言——散点图和折线图1
相同横坐标下,拟合线上的点和被拟合线上的点的垂直距离就是“误差”。拟合线有无数条,可以放在图上的“最佳拟合”是“误差”平方和最小的线,即“最小平方”线。有几种类型的平滑器,但它们在给定的x值(或相近的几个x值)都都显示了y的中心,连接这些点构成的线(通常是曲线)相对平滑。a图中,type="b"表示点和线,b图中的type="l"表示仅绘制线。涉及lattice包的目的是为了生成网格图,如下,用lattice为Puromycin数据绘制的图,在不同的窗口或面板(panel)分别展示处理和未处理的对象。
2025-06-17 01:00:00
718
原创 R语言——地毯图
它是一种一维的展示,可以添加到已有的图上,以说明其他类型图中没能呈现的信息。地毯图和带状图一样,沿坐标轴在各个点放置不同的符号,代表变量的值,只不过它是用短线来表示点。如果合适的话,例如搭配垂直的箱线图的情形,地毯图也可以放在图的左侧(side=2)或右侧(side=4)轴上。b图的箱形图呈偏态分布,但是仅凭箱线图我们不可能知道数据分布在哪里,而地毯图清晰地展示了这一点。图形上面的长细须,可能是几个分散的点或一个极值的结果。地毯图显示了所有点和它们的位置,包括一个极值和刚超过第三个四分位处聚集的几个点。
2025-06-16 01:00:00
215
原创 R语言——饼图
饼图(pie chart)通常用于占比展示。我们可以是pie()函数来生成饼图。当我们想强调整体重有一个切片代表的某一部分时,饼图也可以很好地满足需求。饼图的可替代方案是扇形图(fan plot)。参考资料:R图形化数据分析。
2025-06-15 01:00:00
355
原创 R语言——条形图
最后两张条形图中,各级别中代表男性和女性的条紧邻,而不同的级别是分开的。这是通过使用参数 space = c(1, 0, 1, 0, 1, 0) 实现的,它告诉 R:在第一个条前应该有一个大小为 1 的间隔,在第二个条前应该有一个为 0 的间隔,以此类推。的,甚至是按类区分的,所以断点通常是固定的或者说逻辑上不可移动的。最重要的区别是条的间距,另外,最后一张图的方向和其他图不同。图b使用了space = 1.5,所以条间隔很宽,即条间的宽度是条的 1.5 倍。如果需要,我们可以使用不同的断点定义条。
2025-06-14 01:00:00
473
原创 R语言——核密度图
当ecdf() 函数应用到小的数据集时(如sbp数据集),由于数据非常稀疏,以致图上的“曲线”有断点,这使此图缺乏吸引力且难以阅读。lines()接受的参数可以是包含定义先的点的向量,也可以是一对用来画线的变量x和y。想象一下,取几个相邻组的数值的加权平均值,并用连接这些平均值的平滑线代替直方图的值。首先,我们可以首先为欧洲的碳排放数据绘制密度图,然后用 lines() 函数在生成的图上绘制欧亚大陆的数据。在上图的a图的x轴标题显示了默认标签,代表样本的大小N和带宽(bandwidth)。
2025-06-13 01:00:00
1248
原创 R语言——直方图
最后,每个等级中男性和女性的工资分布有相同的中位数,但在教授和副教授级别中有更多的男性处于工资的高端。我们来生成一组直方图,为每个等级(3 个等级)和性别(2 种性别)的组合,或者说共 6 种组合,生成各自的直方图。然而,男性的分布不那么容易解释:因为柱形条的底部在不同的水平线上,很难比较它们的高度。注意 histogram() 命令的语法稍微不同,要做直方图的变量位于~符号右侧,由变量组合形成的组后紧跟竖线符号(|),使用星号(*)表示跨两个变量。这里使用的是基础函数,并未使用上述函数,但效果一样。
2025-06-12 01:00:00
943
原创 R语言——茎叶图
你也许不会将这种类型的图用在最后的展示中,但可能会发现这个优雅的工具有助于理解直方图,而且在项目的探索阶段它是有启发作用的。这种类型的图不仅可以揭示数据分布的大致形状,还可以显示每个数据点的值。许茎叶图看起来没有其他一些有好看形状和颜色的图吸引人,但此类图显示了所研究向量中的每个数字的精确值,这可以帮助理解数据,也有助于对图的修改。然后,为同一范围内的所有值保留一行,并且在适当的行上写下每个数值的最后一位有效数字。每个茎的宽度减半(即宽度为5而不是10),而茎的数量变成的之前的2倍。
2025-06-11 01:00:00
429
原创 R语言——箱线图
Mathach被拆分为多个组,生成的箱线图如下:这次par()函数通过给参数mfrow传递一个表示2行2列的向量来设置一页显示4张图。通过参数sub="text to appear"使每张图的x轴上有一个标签,表明生成此图的命令。还有一种不同类型的图会揭示更多的信息:箱线图可以展示几个关键信息,它们在带状图中是不明显的。这两个带状图仅能展示了数据大体的分布情况,且是在使用了极小符号"."的情况下才可以看得清楚。示例二:使用Nimrod数据集,用箱线图研究各种乐器及业余与专业剧团的表演时间的分布情况。
2025-06-10 01:00:00
516
原创 R语言——点图
颜色可以吸引观察者的注意,所以用参数col将点和标签设置为不同的颜色。图中的线也靠的非常近,为方便阅读,可以尝试逐条线交替使用不同的颜色显示。因为只指定了两种颜色,所以当R需要为第三个州添加颜色时,它会返回使用第一个颜色,依此类推,直到所有州都有颜色。请注意,数据框中的每一行有一个州名。现在,可以很容易看到哪个州谋杀逮捕率最高,哪个州谋杀逮捕率最低。当然,可以从数据表中看出这些信息,但通过这张图,一眼便可看出各州之间的相对差异。参数cex可以改变字符大小:cex的默认值为1,他的值越小,字符显示地就越小。
2025-06-09 01:00:00
517
原创 R语言——带状图
因此,即使是完全相同的数据,每次执行抖动的stripchart()命令时,结果也会略有不同的,但每个点在水平方向上的位置是相同。对于带状图来说,最好的符号是哪些重叠最少的符号,往往是空心圆(pch=1)或非常小的符号(pch=18或pch=20)。在上图的中,Volume的单个极值似乎没有处于适当的位置,超出了图像的范围,我们可以使用参数xlim延长坐标轴来解决这个问题。每一个参数可在图周围,以参数表示的形。adj表示“对齐”,参数=1表示在最右边,=0表示在最左边,0~1的值表示位于右边和右边的距离。
2025-06-08 01:00:00
989
原创 R语言——正交试验设计2
因为每个因素水平均值的极差抵消了其他因素取不同水平对效应的影响,从而认为,该因素各水平的差异是由于因素本身引起的,因素水平极差大,说明该因素水平的改变对试验结果影响大,意味着该因素重要;正交试验结果方差分析的基本思想是把由于因素(含交互作用)水平变化所引起试验结果的差异与试验误差分开,用因素水平变化所引起的试验结果的变化与试验误差之比作为统计量(F比),来衡量因素对试验结果的影响有无统计学意义。还可以通过barplot()函数,将各水平的均值绘制成条形图,对因素各水平对试验指标的影响进行判断。
2025-06-07 01:00:00
1157
原创 R语言——正交试验设计1
考虑进行一个3因素,每个因素有3个水平的试验。正交试验设计是研究多因素多水平的一种设计方法,它是根据正交性从全面试验中挑选出部分有代表性的点进行试验,这些有代表性的点具备“均匀分散,齐整可比”的特点。如果将A,B,C三个因素分别安排在正交表的1,2,3列,则试验方案为A1B1C1,A1B2C2,A1B3C3,A2B1C2,A2B2C3,A3B1C3,A3B2C1,A3B3C2,这些试验方案的确定则是根据。正交试验设计的基本特点是:用部分试验来代替全面试验,通过对部分试验结果的分析,了解全面试验的情况。
2025-06-06 01:00:00
962
原创 R语言——尧敦方试验设计
三因素试验通常采用拉丁方设计,但是它有一个重要前提,在设计上要求三个因素(处理、区组、序列)的水平数相等。然而,在实际工作中,有时在处理水平固定的条件下,其他两个因素中有一个的水平数少于处理水平数。在这种情况下无法使用拉丁方设计进行试验,此时可以采用尧敦方试验设计。原则上讲,尧敦方试验设计的应用范围与拉丁方试验设计情况相同但它仅适用于其他两因素中有一因素水平数少于处理水平数的情况。在尧敦方试验设计中,由于行列的水平与处理因素的水平不全相等包含处理全部水平与全部行数,对。,不能用拉丁方设计,需用尧方设计。
2025-06-05 01:00:00
376
原创 R语言——拉丁方试验设计
由于拉丁方试验设计的变异来源分为四项:处理间、区组间、序列间和误差,得到的信息有3个,并且误差较小,因此这是一种节约样本量的高效率试验设计但是由于它在因素和水平上有严格的限制,nxn个试验单元必须排列成n行n列,这样使试验空间缺乏伸缩性,重复太多,要估计的效应太多,剩下的误差自由度太少,用起来缺乏灵活性,而且不能显示因素间的交互作用,故在应用上有一定的局限性。拉丁方试验设计是在随机区组试验设计的基础上发展起来的,它可多安排一个已知对试验结果有影响的非处理因素,增加试验的均衡性,减少了误差,提高了效率。
2025-06-04 01:00:00
769
原创 R语言——随机区组试验数据的分析方法
如从专业的角度,第二因素(区组因素)作用尚待确定者,则将区组间与误差二项合并为组内;若第二因素作用已经确定无疑,设计与分析该因素的目的是为了减少误差则不应合并。方差分析结果表明,广告类型对于产品销售的影响没有统计学差异,而城市规模对于产品销售有非常显著的影响。在方差分析的基础上,应进一步通过均数多重比较,分析因素不同水平对试验指标的影响。,即将变异来源分为处理间、区组间和误差三项,分析处理间差异和区组间差异有无统计学意义。在获得试验数据之后,我们可以将数据导入到R语言中进行数据统计分析。
2025-06-03 01:00:00
354
原创 利用R语言生成区试中随机区组试验设计——多点
目前,区试要求对照不得位于区组的首尾小区,且不同区组的相邻小区位置不得出现同一品种。local_name为试验点名称的向量,默认为NULL。当不为空时,local_num的数值将自动等于local_name向量的长度。block表示区组数,默认单个试验点的区组数为3,也可以对不同试验点设置不同的区组数,此时用向量表示即可。local_num表示试验点数量,默认只有一个试验点,与local_name是二选一的。same默认为FALSE,表示要求单个试验点不同区组的同一小区位置不出现同一品种。
2025-06-02 01:00:00
391
原创 利用R语言生成区试中的随机区试试验设计
目前,区试要求对照不得位于区组的首尾小区,且不同区组的相邻小区位置不得出现同一品种。基于这一要求,编写了R语言的随机区组试验设计。此函数仅用于一个试验点的情况。same默认为FALSE,表示要求不同区组的同一小区位置不出现同一品种。ck表示是否设置有对照,如果有,则将ck=对照名称。varieties是品种列表,需要是字符向量。block表示区组数,默认为3。
2025-06-01 01:00:00
279
原创 R语言——随机区组试验设计1
各自的差异有无统计学差异的情况,不管是两个或多个处理组,均可采用完全随机区组试验设计。随机区组试验设计,按照一定的条件,将几个条件相同的受试对象划分为一个区组,然后在每个区组内部按随机原则将每个受试对象分配到各组,对每组分别实施不同的处理,然后对其结果进行方差分析。随机区组试验设计时,第一因素应当安排研究的主要因素,第二因素相对次要一点,可以是待考察的因素,也可以是仅仅为了排除它对试验结果的影响。正确划分区组的条件十分重要,总的原则是必须将对试验结果有明显影响的非处理因素列为划分区组的条件,要求。
2025-04-30 01:00:00
1297
原创 R语言——完全随机试验设计2
上述完全随机试验设计的数据分析方法,都是基于试验指标正态分布的计量数据,若所获得的试验指标为计数资料,则需要采用非参数的检验法,这里不做介绍。除了通过方差分析,分析多个处理组之间的差异是否具有统计学意义,在R中,还可以通过图形分析的方法,直观地对多个处理组进行比较。因素水平数为2,即处理数为2的两组试验数据,数据性质为计量资料,通常采用t检验对试验数据进行统计学分析。首先计算各组的均值、标准差等,并绘制出两组数据的箱线图,对数据进行基本的探索性分析。方差分析结果显示,五种药物疗法的效果具有显著的不同。
2025-04-29 01:00:00
684
原创 R语言——完全随机试验设计1
完全随机试验设计也叫组间设计被试对象被分成若干组,每组分别接受一种试验处理,有几种试验处理就分为几组,各试验组的受试对象之间相互独立,因而又叫独立组试验设计。完全随机试验设计的本质是将供试对象随机分组,就是要保证每个供试对象都有相同机会接受任何一种处理,而不受试验人员主观倾向的影响。完全随机试验设计也称为单因素试验设计,或成组试验设计,是科学研究和生产实践中最常用的一种试验设计方法。(3)由于未应用局部控制的试验原则,非试验因素的影响被归入试验误差,试验误差较大,试验的精确性较低。完全随机试验设计是采用。
2025-04-28 01:00:00
609
原创 R语言——回归分析6
在很多实际问题中,变量之间的关系可能是非线性的,此时需要采用非线性回归模型。非线性回归具有多种多样的形式,如双曲线、二次曲线、三次曲线、幂函数曲线、指数函数曲线、S形曲线、对数曲线、指数曲线等。因此,非线性回归分析的关键是确定函数的具体形式。在确定非线性函数具体形式之后,仍然是通过最小二乘法获得回归模型,并对其进行统计学的检验。回归系数的显著性检验、回归方程的方差分析结果均显示:x一次及二次项对y都有显著影响。对回归方程的显著性检验结果表明,所建立的多元非线性回归方差与试验数据拟合得较好。
2025-04-27 01:00:00
378
原创 R语言——回归分析5
在残差分布Q-Q图中,落在置信区间以外的点,可以认为是离群点。car包提供了离群点的统计检验方法,outlierTest()函数可以计算最大标准化残差绝对值Bonferroni调整p值,可作为判断是否为离群点的依据。car包的avPlots()函数可以绘制变量添加图,即每个自变量xi绘制xi在其他自变量上回归的残差值相对于因变量在其他自变量上回归的残差值的关系图。上图中的直线表明相应自变量的实际回归系数,可以通过观察删除某些强影响点后直线改变情况来评估强影响点的影响情况。是与其他自变量有关的离群点。
2025-04-26 01:00:00
1256
原创 R语言——回归分析4
对于多个自变量与一个因变量的多元线性回归分析,可以利用逐步回归分析的方法来选择进入回归模型对因变量有显著影响的自变量。但是,这只是从选择自变量的角度来研究问题,没有对模型的其他特性做进一步的分析,也没有对数据本身是否存在异常进行分析。若某个偏回归系数的t检验通不过,可能是该系数相对应的自变量对因变量的影响不显著的原因,那么,可以将该自变量从回归模型中删除,在重新建立回归模型,或更换自变量。自变量之间的共线性或隐藏变量的显著性,增加参数估计的误差,同时获得的模型稳定性下降。对模型造成过度依赖的数据往往是。
2025-04-25 01:00:00
843
原创 R语言——回归分析3
与一元线性回归汇总的决定系数r^2相对应,多元线性回归也有多重决定系数R^2,它是在因变量的总变化中,由回归方程解释的变动(回归平方和)所占的比重。在实际工作中,由于没有清洗的理论依据,回归模型中包含的自变量难以事先确定,如果在回归模型中引入一些不太重要的自变量,会降低模型的精度。其中,b_0为常数项,b1,b2,...,b_k为回归系数,b1是x2,x3...,x_k固定时,x1每增加一个单位对y的效应,即x1对y的偏回归系数。估计标准误差,即因变量y的实际值与回归方程求出的估计值。
2025-04-24 01:00:00
1056
原创 R语言——回归分析2
对于给定的显著性水平α,显著性检验要求|r|>r_min时,才说明y与x之间现在密切的线性相关关系,或者说,用所求得的回归方程描述变量y与x之间关系才有意义;cor.test()函数输出结果中,对两变量的相关系数进行了t假设检验,t值为46.169,检验的p值为5.353e-11,同时也输出了相关系数的95%的置信区间为[0.9917926,0.9995744]及其相关系数的大小0.9981,表明变量X与Y高度正相关。根据计算得到的F与临界值之间的关系,判断y与x之间有无明显的线性关系。
2025-04-23 01:00:00
1161
原创 R语言——回归分析1
例如,身高与体重的关系,一般情况下,身高越高,体重越重,但是这一规律很难用一个确定的函数关系式来精确描述,然而两者之间确实存在相关关系。若使x取一组不完全相同的值xi(i=1,2,····,n),进行独立试验,就得到与之对应的一组观察值yi(i=1,2,····,n),称xi为自变量,yi为因变量。如果y与x的关系是线性的,则称为一元线性回归。变量之间的关系,通常可以分为两种类型:确定性关系和相关关系当一个变量或几个变量取一定数值时,另一个变量有确定值与之对应,即变量之间存在完全确定的。
2025-04-22 01:00:00
888
原创 R语言——方差分析5
做方差分析时,可根据资料设计的类型及研究目的,将总变异分解为两个或多个部分,每个部分的变异可由某因素的作用来解释,通过比较可能由某因素所致的变异与误差(或组内)变异,即可了解该因素对测定结果有无影响。如果统计分析时只分析最后一次测量结果,会丧失很多“过程”,如测量指标的时间趋势等,而且在统计上,保留“处理”前得信息可以有效评价随机分组的均衡性,也能够提高统计分析的效率。根据输出结果,可以列出两个方差分析表,不同的method间差异显著,pressure在不同的method下不同时间变化的趋势不同。
2025-04-21 01:00:00
435
seaborn常用数据案例
2024-04-21
python-活用pandas库数据集
2024-04-15
R语言+统计分析+源数据
2024-04-04
excel统计分析相关文件
2024-03-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅