R概率分布函数使用小结

本文介绍了R中概率分布函数的基本概念,包括密度、概率、分位和随机函数,并通过实例展示了如何使用这些函数进行数据挖掘模型的精度评估和比较。深入探讨了统计学在数据挖掘中的重要性,特别是通过二项分布和正太分布的近似应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

R中自带了很多概率分布的函数,如正太分布,二次分布,卡放分布,t分布等,这些分布的函数都有一个共性,每个分布拥有4个带有d,p,q,r前缀的函数。比如正太分布,有dnorm,pnorm,qnorm和rnorm。这几个前缀的意义如下:
  • d  Density的缩写,表示密度函数。举个例子,标准正太分布x=0对应的值可以用dnorm(0)计算
  • p  Probability的缩写,表示概率函数。举个例子,标准正太分布从负无穷大到0的概率,可以用pnorm(0)计算
  • q  Quantile的缩写,表示分位函数。举个例子,如果知道标准正太分布从负无穷大到x的概率是0.9678,想要知道这个x的值,可以通过qnorm(0.9678)计算。
  • r Random的缩写,表示随机函数。用于随机生成符合正太分布的数值,举个例子,如果想随机生成10个符合标准正太分布的函数,可以用rnorm(10)来获得。
在R命令行中输出“?pnorm”,可以了解更多详细情况。
 
心得体会
最近在学习数据挖掘中的一些分类模型,由于才入门不久,以前总认为概率在数据挖掘在没多大用处,直到昨天才知道原来挖掘模型的精度评估和比较可以建立在统计学分析框架上。比如评估一个分类模型,计算其准确度的自行区间就是通过二项分布近似到正太分布计算。再比如,评估两个模型是否有差异,这个通过假设检验和卡放分布验证。
 
参考:《数据挖掘导论》 Pang-Ning Tan 4.6节

声明:如有转载本博文章,请注明出处。您的支持是我的动力!文章部分内容来自互联网,本人不负任何法律责任。


http://www.cnblogs.com/bourneli/archive/2013/06/30/3163437.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值