统计思维(实例1)——统计直方图

本文基于全国家庭增长调查(NSFG)数据,分析妊娠周数和新生儿体重,通过直方图展示成功生产的新生儿体重分布,揭示最常见值和可能的离群值。同时,对比第一胎与其他胎的妊娠周数差异,说明直方图在数据比较中的局限性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

全国家庭增长调查


1973年起,美国疾病控制和预防中心(CDC)开始全国家庭增长调查(NSFG,http://cdc.gov/nchs/nsfg),以收集“与家庭生活、婚姻状况、妊娠情况、生育情况等相关的”信息,进行健康服务和健康教育项目规划。

本实例将使用这项调查收集的数据研究第一胎是否出生较晚,并解答一些其他问题。在使用调查数据前,先熟悉codebook。可以从美国疾病控制和预防中心的网站(NSFG)的"Questionnaires, Dataset, and Related Document"选项中下载全国家庭增长调查数据的代码本和使用手册。

全国家庭增长调查的妊娠数据下载地址为: ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NSFG
本文使用2013_2015_FemPregData.dat的数据,2013_2015_FemPregSetup.dct是一个数据字典,记录了数据文件的格式。

2013_2015_FemPregSetup.dct数据字典的内容为:

infile dictionary {
************************************* 
* NATIONAL SURVEY OF FAMILY GROWTH (NSFG), 2013-2015
* STATA Pregnancy Data Dictionary
*
* Warning: Edit this file at your own risk
*
*****************************************************

_lines(1)

_line(1)

    _column(1)  long    CASEID   %5f  "受访者编码"
    _column(6)  byte    PREGORDR   %2f  "怀孕次数"
    _column(8)  byte    HOWPREG_N   %2f  "当前怀孕月数"
   ......

2013_2015_FemPregData.dat的内容为:

60418 1     5  ---
60418 2     5  ---
60418 3     5  ---
......

读取定宽字符文件的类:

#表示一组固定宽度的变量
import numpy as np
import pandas
class FixedWidthVariables(object):

    #初始化
    #variables:DataFrame
    #index_base:索引列标
    def __init__(self, variables, index_base=0):

        self.variables = variables        
        # 默认为:colspecs-1
        self.colspecs = variables[['start', 'end']] - index_base        
        # 将colspecs转为int列表
        self.colspecs = self.colspecs.astype(np.int).values.tolist()
        self.names = variables['name']  
          
    #使用pand方法读取定宽字符
    #返回DataFrame对象
    def ReadFixedWidth(self, filename, **options):
    
        df = pandas.read_fwf(filename,
                            colspecs=self.colspecs,
                            names=self.names,
                            **options)        
        return df

加载字典文件:

#加载字典文件,返回字典对象
import re
import
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值