《统计思维——程序员数学之概率统计》学习笔记及每章练习

本文是关于《统计思维——程序员数学之概率统计》的学习笔记,包括探索性数据分析、分布和概率质量函数的章节练习。通过ReadFemPreg函数处理数据,深入理解DataFrame操作,如访问列、添加新列、计数统计等。同时,讨论了分布的统计量,如均值、众数,并用直方图展示。进一步探讨了概率质量函数(PMF),计算并对比了不同生育次数孩子的出生周数差异。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

《统计思维——程序员数学之概率统计》学习笔记及每章练习

第一章 探索性数据分析

  • 练习1.1
    主要目的是为了熟悉作者正文里用到的一些获取数据的方法。
    – ReadFemPreg:从dct文件和dat文件中分别读取属性和数据,组合成一个DataFrame对象返回,供后续分析数据使用。
    – 访问DataFrame中的一列,可以用字典语法 df[‘pregordr’], 也可以用点标记法 df.pregordr(只有当列名为合法的Python标识符时才能使用)。
    – 为DataFrame添加新列时,必须使用字典语法。
    – DataFrame的每一列是一个Series对象,可以用valude_counts()方法计算每个值出现的次数,如:df.outcome.value_counts().sort_index().
    – MakePregMap():获取每个caseid对应的所有index(一位受访者会有n次怀孕数据,对应n行)。函数实现中用到的collections.defaultdict()用于返回一个类似字典的对象,可以不用显式赋值。
    – 获取特定caseid的所有数据:preg[preg.caseid==2298]

  • 练习1.2
    – 读取2001FemResp.dat.gz数据:将ReadFemResp入参改为(dct_file=‘2001FemResp.dct’, dat_file=‘2001FemResp.dat.gz’, nrows=None). 读取pregnum:

    resp_2001 = ReadFemResp_2001()
    preg_2001 = nsfg.ReadFemPreg()
    
    pregnum_list = preg_2001.pregnum.value_counts().sort_index()
    print(pregnum_list)

– 比较Resp和Preg文件中每位调查者的妊娠次数: 遍历Resp中的每个index,得到index对应的pregnum数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值