统计知识和杂谈
文章平均质量分 63
天桥下的卖艺者
4个R包的编写者。发布关于SPSS、R语言、stata等相关科研的文章。今后的方向聚焦于:1.机器学习和深度学习 2.各种模型算法研究 3.各种科研图形绘制 4.R语言编程和R包编写 5.数据挖掘
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
R语言进行二阶段工具变量回归(Instrumental Variables Regression)
工具变量回归(IV Regression)是解决回归分析中内生性问题的有效方法,通过引入与内生解释变量相关但与误差项无关的工具变量(如税收与香烟价格)。本文以AER包的香烟数据为例,演示了二阶段回归法:首先检验工具变量与价格的正相关性(R²=0.47),随后建立价格与消费量的负相关关系(弹性-1.08)。使用ivreg函数验证结果一致,证实价格每上涨1%会导致消费量减少约1.08%。该方法适用于存在遗漏变量或双向因果的场景,类似孟德尔随机化中的工具变量原理。原创 2025-07-22 09:25:31 · 712 阅读 · 0 评论 -
R语言使用随机过采样(Random Oversampling)平衡数据集
摘要:随机过采样是一种处理类别不平衡的机器学习技术,通过复制少数类样本来平衡数据集。本文介绍了其优缺点:优点是简单易行且不改变原始数据分布,缺点可能引发过拟合。通过R语言演示了使用ROSE包实现随机过采样的过程,从生成不平衡数据到平衡处理,并可视化对比了处理前后的数据分布差异。该方法适用于逻辑回归等模型,但需注意可能导致的预测偏差,建议配合敏感性分析使用。文章还预告后续将介绍更高级的SMOTE合成采样方法。(149字)原创 2025-06-03 09:02:59 · 916 阅读 · 0 评论 -
R语言对偏态换数据进行转换(对数、平方根、立方根)
我们进行研究的时候经常会遇见偏态数据,数据转换是统计分析和数据预处理中的一项基本技术。在 R 中实现和可视化最常见的数据转换:对数、平方根和立方根转换。参考文献:https://www.r-bloggers.com/2024/12/how-to-transform-data-in-r-log-square-root-cube-root/当您的数据集不满足统计分析所需的假设时(例如绘制限制立方样条或者曲线拟合不理想的时候),数据转换就变得必要。咱们可以看到上面两个数据都是偏态数据,下面进行数据转换。原创 2025-03-27 09:50:20 · 1086 阅读 · 0 评论 -
声明,这些内容和我无关
一下内容都不是我写的,系统自己加上去的,和我无关,我不负责答疑也不负责其他。原创 2025-01-25 10:49:06 · 599 阅读 · 0 评论 -
推荐一本RMS包作者写的我正在追读的书《Regression Modeling Strategies》
文章表明一般来说节点数再3——5之间就可以了,节点为4通常可以很好的拟合了,样本量小(n100)的时候可以选5,也可以使用AIC的似然比来决定K值。写这本书的就是RMS包的作者,这是他早些年写的书,我们可以结合他写的书来加深对RMS包的理解,我个人觉得写得很好。熟悉我的粉丝都清楚,我很少推荐书,这次推荐这本书是我目前正在读的,这是本老书了,关于回归模型的,我觉得写的很好。看了这本书后发现,以前R的赋值符号是下面这种,就完全理解了,这是进化后的箭头。原创 2024-06-26 11:50:23 · 802 阅读 · 0 评论 -
R语言两种方法实现随机分层抽样
其实用起来非常简单哈,data就是你的数据,strataname就是你分层的变量名字,我们这里当然是SEX性别啦,size就是你抽取的数量,method是抽取的方法,有不替换的简单随机抽样(srswr)、替换的简单随意抽样(srswr)、泊松抽样(Poisson)、系统抽样(systematic sampling);这是个体检相关的数据,公众号回复:体检数据,可以获得这个数据。如果要提取数据,需要使用ID_unit这个变量,这是数据的标识,咱们通常会把分层抽样的数据用来建模,其余的数据用来验证。原创 2024-05-10 17:39:35 · 1977 阅读 · 0 评论 -
聊聊Nhanes数据怎么做中介效应分析
研究的是银屑病和冠心病发病的中介因素,咱们来看下统计学部分,这篇文章介绍缺失超过30%的变量被删除,以后咱们也可以这样做。这个研究是探索挥发性有机物的个体代谢产物和组合代谢产物之间的关系尿液中的(mVOCs),代表VOCs的内部暴露水平,具有骨密度(BMD),骨质疏松症(OP)和骨折以及潜在的介质。最后来介绍一篇7分的文献,为什么放在最后介绍呢,因为它是个统计专业的杂志,应该可靠性很强,而且它还附带了代码。看到了把,使用的是mediation包,这是个常用的中介分析的包,我已经有多篇文章进行介绍了。原创 2024-02-02 09:06:28 · 3937 阅读 · 4 评论 -
回顾2023年总结和2024年计划
2.不少粉丝说ggrcs包不能做大于10万的数据,还有一些国外的老外也发邮件来问这个问题,其实这是rms包的限制,随着我对rms包理解加深,本人最近已经改良算法成功,在未来新版的新版ggrcs包将支持超过10万数据的绘图,为seer数据等大型数据提供支持。如果你确实需要帮助,问的时候要提供详细的资料,比如完全的代码、数据结构,报错代码,你做了什么尝试都要说的,你就发个报错代码,其他都没有,除非很简单,不然我也看不出来的。原创 2024-01-19 10:03:34 · 1163 阅读 · 0 评论
分享