Python数据科学技术详解与商业实践 -读书笔记 一

本文探讨了Python数据科学中的变量类型,包括名义变量、等级变量和连续型变量及其分布特性。介绍了正态分布的关键特点,以及分类变量如名义变量和等级变量的统计量计算。同时,讲解了描述连续变量集中趋势的统计量,如平均数、中位数和众数。此外,还分享了编辑代码时的快捷键技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

变量类型与分布类型

名义变量
等级变量(有序分类变量)
连续型变量

变量的分布类型是对实际变量分布的一个概括和抽象。经常遇到的分布有二项分布、正态分布、卡方分布、t分布、f均匀分布和泊松分布等。
探索变量分布的意义在于:只要知道某个变量服从某个分布,就可以很快地了解变量在相应取值时的概率(分布是从无数个变量频率得到的,对其统计特性有了深入的分析),并且结合相应的业务场景做出解释。
正太分布的特性: 均值 = 中位数 = 众数
正太分布的3\sigma准则。

分类变量的统计量

名义变量等级变量统称为分类变量。
名义变量是指变量值不能比较大小的分类变量,例如性别男和女,并不能说女性高于男性或者说男性高于女性。这类变量还有民族、职业、行业(采掘业/制造业等)。名义变量有两种统计量,分别是频次、百分比
等级变量指变量值有等级关系,可比较大小,例如教育程度(小学<初中<高中<大学)、产品质量(低<中<高)等。等级变量有四类统计量,分别是频次、百分比、累计频次、累计百分比

连续变量的分布与集中趋势

描述变量的统计量主要有四类统计量:集中趋势、离中趋势、偏态分布与尖峰程度。
数据的集中水平:使用某个指标代表数据的集中趋势,常见指标有平均数、中位数、众数。

撤销:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:C

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值