
《深入浅出统计学》
文章平均质量分 88
《深入浅出统计学》读书笔记
小明2766
洄游的鱼终究会找到归途
展开
-
【读书笔记->统计学】12-02 置信区间的构建-t分布概念简介
t分布的标准分的计算方法与正态分布的标准分的计算方法相同。唯一的差别是,我们用T而不是Z代表结果,这是为了配合t分布的使用。当n很小时,t分布给出的置信区间比正态分布的置信区间更宽,这使它更适合用于小样本。为了求出t值,先从概率表中查找第一列的v值,再查找第一行的p值,二者的交点处即为t值。t分布的使用方法与正态分布相似——先将概率区间的上下限转化为标准分,然后用概率表求出所需要的结果。通过t分布概率表可求出P(T>t)中的t值。一般说来,较小的样本形成较宽的置信区间,较大的样本形成较窄的置信区间。....原创 2022-07-19 13:26:50 · 8714 阅读 · 2 评论 -
【读书笔记->统计学】12-01 置信区间的构建-置信区间概念简介
引言上一章帮助我们利用样本估计总体均值、方差或一定比例的精确值。但是你认为的样本就一定准确(或者说无偏)吗?这一章,另一种估计总体统计量的方法——置信区间,有其作用。曼帝糖果公司用一个包含100粒糖球的样本得出口味持续时间均值的点估计量为62.7分钟,同时总体方差的点估计量为25分钟。这是根据手头证据有可能得出的最可靠的口味持续时间估计,可要是略有差池,那该怎么办?因此,与其给出一个精确值作为总体均值的估计值,不如采用另一种方法。。确定空间的宽度取决于自己对结果有多大自信了。...原创 2022-07-19 13:23:15 · 4411 阅读 · 0 评论 -
【读书笔记->统计学】11-03 总体和样本的估计-样本均值的概率、中心极限定理概念简介
假设一个情境:曼帝糖果公司也生产小袋装糖球,每一个小包装袋里的糖球数目均值为10,方差为1。然而,有一个顾客买了30袋糖球,结果发现每袋糖球中的糖球平均数目只有8.5。求这种事情发生概率有多大?这次我们已知小包装糖球的总体均值和方差,然后抽取了几袋糖球作为样本,需要为该样本计算概率(样本均值的概率)。为了计算样本均值的概率,先要得出样本均值的概率分布。下面是具体步骤:如果我们手头的样本大小为 n,则需要考虑大小为的所有可能样本。小包装糖球有 30 袋,因此这里的 n 为 30。每一个样本都各有特点,每个包装原创 2022-07-10 17:49:10 · 3131 阅读 · 0 评论 -
【读书笔记->统计学】11-02 总体和样本的估计-总体比例、样本比例、根据总体预测样本比例概念简介
假设一个情境:曼帝糖果公司再一次进行了抽样,以便利用调查结果预测:总体中有多大比例的人“可能偏爱曼帝公司的糖球”。结果发现,在40个人中有32个人偏爱他们的口香糖球,其余8个人则偏爱竞争对手的口香糖球。首席执行官感兴趣的是,是否人人都偏爱曼帝糖果的产品。那么可以将偏爱曼帝糖果的每一个人作为一个“成功”事件。那么我们如何利用样本数据预测总体的“成功”比例?如果我们用 X 表示总体的成功事件数量,则 X 符合二项分布,参数为n和p。n为总体中的人数,p 为成功事件的比例。就像总体均值的最接近估计是样本均值一样,原创 2022-07-10 17:45:41 · 11639 阅读 · 0 评论 -
【读书笔记->统计学】11-01 总体和样本的估计-总体均值、样本均值、点估计量、总体方差、估计总体方差概念简介
假设一个情境:曼帝糖果公司得到了超长效口香糖球的无偏样本,他们对样本中的每一粒糖球进行测试,得到了关于样本糖球口味持续时间的大量数据。现在,求糖球总体的口味持续时间的均值和方差。如果样本是无偏样本,那么样本的糖球与总体糖球的口味持续时间相符,也就是说,我们求出样本的均值,然后将样本均值作为总体均值。虽然不能说这两者完全吻合,但这是我们能做出的最好估计。在我们根据手头信息得到的数值中,样本均值是最有可能被作为总体均值的数值。样本均值被称为总体均值的点估计量,也就是说,作为一个基于样本数据的计算结果,它给出了原创 2022-07-10 17:41:10 · 9606 阅读 · 0 评论 -
【读书笔记->统计学】10-01 样本与抽样-总体与样本、抽样方法、设计与选择样本概念简介
样本与抽样总体与样本假设一个情境:曼帝糖果公司生产超长效口香糖球,这种产品具有多种颜色,可以满足多种口味。为了宣传口香糖球的口味持续时间,公司决定招聘试吃者进行口味检验。我们当然不能让试吃者吃完所有的糖球。因此,我们需要从总体中抽出样本。糖球总体糖球总体表示现有的每一粒糖球总和。统计学上的总体指的是准备对其进行测量、研究或分析的整个群体,可以是人、得分,也可以是糖果一关键在于总体指的是所有对象。普查指的是对总体进行研究或调查。在曼帝糖果的实例中,他们对每一粒糖球进行品尝,因此,是对糖球总体原创 2022-05-02 10:38:31 · 3426 阅读 · 0 评论 -
【读书笔记->统计学】09-02 将正态分布运用到其他概率分布-用正态分布近似代替二项分布、泊松分布概念简介
用正态分布近似代替二项分布假设一个情境:有40道题,每一道你都不知道答案,答对概率为1/4。求答对30题及以上的概率。这个是典型的二项分布,具体介绍见:【读书笔记->统计学】07-02 离散型概率分布-二项分布概念简介。我们需要求P(X>=30),即我们必须将P(X=30)直至P(X=40)的概率算出来,再加总。**要算出11个概率在求和,这得多麻烦呀!**不过正态分布可以代替二项分布。因为正态分布要用到,我们求出二项分布的期望和方差,分别是np和npq,则分别为40*0.25=10和40*0.原创 2022-05-01 20:37:47 · 8605 阅读 · 0 评论 -
【读书笔记->统计学】09-01 将正态分布运用到其他概率分布-正态分布的相加、线性变换与独立观察结果概念简介
将正态分布运用到其他概率分布正态分布的相加假设一个情境:德克想到了“爱情过山车”的创意,让新婚夫妇在过山车上办婚礼。在这之前,需要确保他所设想的特别座驾能够承载新郎和新娘的重量。他设想的座驾最多承载380磅的重量,求新郎和新娘综合体重不超过这个重量的概率是多少?假设新娘的体重符合正态分布N(150, 400),新郎的体重符合N(190, 500),单位为“磅”。正态新娘+正态新郎新郎和新娘的体重符合正态分布,如下所示:我们要求的是新郎和新娘的综合概率分布,即,要求新郎与新娘之和的概率分布。原创 2022-05-01 20:02:28 · 4834 阅读 · 0 评论 -
【读书笔记->统计学】08-02 连续型概率分布与正态分布-正态分布概念简介
正态分布另一个情境:朱莉喜欢穿高跟鞋,她坚持自己的男伴在她穿最高的高跟鞋时也比她高,目前她身边没有合适的人。她想知道这些约会对象中有几个比她高,以及约会者身高够得上她的标准的概率是多少?这一次我们该怎么计算概率?在现实生活中,很有可能有几位的身高远远低于平均水平,有几位很高,还有很多介于以上两种情况之间。我们可以期望大多数男生都具有平均身高。在这种给定模式下,男生身高的概率密度有可能是这个样子。实际上,这种形状非常常见,应用广泛,它叫做正态分布。正态分布是连续数据的“理想”模型正态分布之所原创 2022-04-25 23:05:32 · 1965 阅读 · 0 评论 -
【读书笔记->统计学】08-01 连续型概率分布与正态分布-连续数据、概率密度函数、连续概率概念简介
连续型概率分布与正态分布连续数据前面讲到的概率分布涉及的都是离散数据,即数据由一个个单独的数值组成,其中的每一个数值都有对应概率。例如,在分析老虎机收益概率分布时,每一局赌局出现的收益数额是确定的,我们很清楚各种情况的赔率,也知道自己有机会赢到其中一种。如果是离散数据,则为数值型数据,只能取确切值。离散数据往往能以某种方式进行计数,例如糖果机中的糖果数目,智力游戏中答对的问题的数目,或是在一个特定时段内的故障次数。但并非所有数值型数据都是离散的。有时候,数据涵盖的是一个范围,这个范围内的任何一个数原创 2022-04-25 23:01:14 · 1592 阅读 · 0 评论 -
【读书笔记->统计学】07-03 离散型概率分布-泊松分布概念简介
泊松分布假设一个情境:下星期电影院有一个大型促销,影院经理希望一切都完美无缺。爆米花机每一周的平均故障次数为3.4,或者说爆米花机的故障率为3.4。求爆米花机下一周不发生故障的概率有多大?(如果预计故障太多次,就打算买个新的爆米花机了。)与前面不同,这一次不存在一系列的试验,相反,这一次的情况是这样的:已知故障的发生几率,且该故障是随机发生的。这一类问题的难点在于,尽管我们知道平均故障次数,但是实际的故障次数却不是固定的。从总体上看,我们可以期望的故障次数是每周3或4次,但在倒霉的某一周,故障会多得原创 2022-04-19 09:27:31 · 2952 阅读 · 1 评论 -
【读书笔记->统计学】07-02 离散型概率分布-二项分布概念简介
二项分布假设一个情境:你参加了一个问答节目,一共3道题,每道题有4个选项。但是你一点都不知道答案,那么求能答对题数的概率分布。下面是3个问题的概率树:如果X表示答对的题数,我们看看具体的概率:答对0题和答对3题显然易见,只需要0.7530.75^30.753和0.2530.25^30.253。那么答对1题呢,答对的题目可以是题目1、题目2或题目3三种可能,因此答案是0.752∗0.25+0.752∗0.25+0.752∗0.25=3∗0.752∗0.250.75^2*0.25+0.75^2*0.原创 2022-04-19 09:24:32 · 1988 阅读 · 0 评论 -
【读书笔记->统计学】07-01 离散型概率分布-几何分布概念简介
离散型概率分布几何分布一个情境:查德喜欢滑雪,但是技术并不好。从山顶滑至坡底,不出事故地概率是0.2(假设查德不会进步)。如果他打算不停尝试,直至大功告成。在取得第一次成功后,他将停止滑雪。那么如果他试滑一次或两次就能成功滑至坡底的概率多大?那如果他可以试无穷尽次,他会在第几次成功呢?我们可以推演一下(心中可以想像概率树,0.8是失败的情况):这里的r是推演的数值,而x是概率分布中的任何值,两者不要混淆。可以看到,查德第r次成功的概率是:P(X=r)=0.8r−1∗0.2P(X=r) =原创 2022-04-19 09:22:11 · 895 阅读 · 0 评论 -
【读书笔记->统计学】06-01 排列、组合与概率-排位数目、圆形排位数目、按种类排位、排列、组合概念简介
排列、组合与概率老样子,先给一个情境:马赛是一项体育赛事,也是一个赌博机会。你可以对比赛结果下注,如果能押中每场比赛的前三名,大把钞票就到手了。假设今天是开幕赛,马匹都是新马,前期没有统计过它们的实力,因此每一匹马得胜概率相同,这里可以归结为简单概率问题。第一场比赛是三马赛,赌本是500美元,赔率为7:1,如果猜中了,可以获得3500美元。问:假设每一匹马都跑完比赛,比赛结果有几种可能?能押中的概率?该赌局的期望收益?答:设3匹马分别为马1、马2和马3,那么结果可以为:123、132、213、231原创 2022-04-07 18:23:25 · 1244 阅读 · 0 评论 -
【读书笔记->统计学】05-03 “概率”的整体影响-相互独立的随机变量、线性变化随机变量的计算概念简介
相互独立的随机变量的“加”与“减”新的情景:假设有2台老虎机,它们各自独立,其概率分布分别如下:老虎机1:x-5395P(X=x)0.990.01老虎机2,也就是上面用过的老虎机:y-223487398P(Y=y)0.9770.0080.0080.0060.001求在两台老虎机上各玩一局的期望和方差。当然,我们可以用原始的方法,既然是求E(X+Y)或Var(X+Y),那么我们可以求出X+Y的概率分布,也就是列一张X+Y的原创 2022-04-03 10:03:15 · 4661 阅读 · 0 评论 -
【读书笔记->统计学】05-02 “概率”的整体影响-随机变量的线性变换、独立观测值概念简介
线性变换书中给了一个新的情境:在原来的基础上,老虎机的奖励翻5倍,但是拉一次杆的赌本从1美元变成了2美元。下面是新的概率分布:y-223487398P(Y=y)0.9770.0080.0080.0060.001之前的收益分布的期望和方差分别是“-0.77”和“2.6971”,那么现在呢?E(Y)=(−2)∗0.977+23∗0.008+...+98∗0.001=−0.85Var(Y)=∑(Y−μ)2=(−2+0.85)2∗0.977+...+(98+0.8原创 2022-04-03 09:59:04 · 1853 阅读 · 0 评论 -
【读书笔记->统计学】05-01 “概率”的整体影响-期望、方差、标准差概念简介
“概率”的整体影响老虎机的“秘密”书中以老虎机为情境来介绍知识。所以我们可以先看看什么是老虎机。一个简化版的老虎机就是上图的样子,我们可以用1美元的成本拉一次杆,随后三个窗口会滚动,每种符号出现的概率如上图所示。如果碰到以下几种情况,就会获得硬币。我们看看每种中奖的概率是多少:组合无柠檬樱桃美元/樱桃美元概率0.9770.0080.0080.0060.001从上面我们已经求出了每种赢钱组合的概率,不过我们可以更进一步,求得我们可能的赚钱数额。赚钱(原创 2022-04-03 09:55:27 · 1586 阅读 · 0 评论 -
【读书笔记->统计学】04-02 利用概率理论预测和决策-条件概率、概率树、全概率公式、贝叶斯定理、相关与独立概念简介
条件概率现在书给我们提供了一个情境:已知下一次小球会停在黑色球位,赌小球会不会停在偶数球位上。由于我们已经知道小球停在黑色球位,那么小球一定不会停在绿色或红色球位了,但我们求概率的时候,相应的范围也会缩减(我理解为样本空间S减少了,从“黑色、红色和绿色”变成了“黑色”)。换言之,我们要求出所有黑色球位中有多少偶数球位。在轮盘赌,18个黑色球位中有10个球位是偶数,所以:P(黑色已知条件下的偶数)=1018=0.556P(黑色已知条件下的偶数) = \frac{10}{18} = 0.556P(黑色原创 2022-03-29 12:50:10 · 2717 阅读 · 0 评论 -
【读书笔记->统计学】04-01 利用概率理论预测和决策-概率与事件、维恩图、互斥与相交事件、交集与并集概念简介
利用概率理论预测和决策老样子,书还是用一个情境帮助我们学习概率:假如你在一个赌场,你有一些筹码,“轮盘赌”正在进行,对此你也非常的感兴趣。轮盘赌简介庄家转动一个轮盘,随后朝相反方向掷出一个小球,赌者将赌注押在他所料定的停球位置。肥蛋赌场所用轮盘有38个停球位置,主球位编号1-36,颜色或黑或红;另有两个球位编号0和00,均为绿色。轮盘赌样子如下:轮盘赌的下注方式五花八门。例如,可以读一个特定数字(奇偶均可),可以赌球位颜色,开局后还会有人宣布各种其他赌法。再就是记住:如果停在绿色球位,你就输原创 2022-03-28 20:26:14 · 4673 阅读 · 0 评论 -
【读书笔记->统计学】03-02 各种“距”和“差”-方差、标准差、标准分概念简介
变异性 “>” 分散性继续上一篇挑选球员的例子,全局、四分位距可以告诉我们最大值和最小值之间的差值,但是无法告诉球员们得到这些最高分或最低分的频率(得高分次数多的球员好),以及球员们得到更接近数据中心的得分的频率(决赛时,得分更稳定的球员,减少得分起伏)。可以说,全局、四分位距等方法可以帮助我们量度每批得分的分散性。但是我们还需要看出球员的稳定程度,也就是量度每批得分的“变异性”。比如下图的球员1和2。球员1的各个数值与均值相距甚远,可能得很低的分,也可能得很高的分,这让教练很难预测在比原创 2022-03-23 19:56:34 · 4977 阅读 · 0 评论 -
【读书笔记->统计学】03-01 各种“距”和“差”-极差(全距)、四分位距(数)、百分位数、箱线图概念简介
各种“距”和“差”上一章中我们学习了平均数,但是它有自己的有限性。为了得到更多的信息,我们开始学习各种“距”和“差”。情境:现在我们想要招募一名球员,他们的历史得分分别如下:可以看到,他们的得分均值、中位数和众数都是10分,他们是以不同的方式获得这些成绩的。他们在稳定发挥方面存在差异,平均数无法量度这一差异。极差(全距)通过计算极差(等同于全距),我们可以轻易获知数据分散情况。极差指出数据的扩展范围,有点儿像测量数据的宽度。它是量度数据分散程度的既简单又方便的方法。极差的计算方法是:用数据集中原创 2022-03-21 19:51:36 · 8035 阅读 · 0 评论 -
【读书笔记->统计学】02-01 各种“平均数”-均值、中位数和众数概念简介
各种“平均数”在这之前,请大家先要知道这里的“平均数”可不指代平常的概念,在统计学中,平均数可以帮我们把握一批数据的总体情况。均值均值,就是我们日常生活中经常用到的平均数,只需要将所有数字加起来除以数字个数即可。如果用字母(抽象化)来表示均值:μ=∑xn \mu = \frac{\sum x}{n} μ=n∑x其中μ\muμ是均值的专用符号,读作“缪”。Σ\SigmaΣ为求和符号,读作“西格玛”。x为每个数字,n为数字的个数。对于有频数的情况,比如计算平均年龄,19岁的1个,20岁的3个,2原创 2022-03-18 20:16:59 · 15299 阅读 · 0 评论 -
【读书笔记->统计学】01-02 饼图、条形图、直方图、累计频数图、折线图概念简介
饼图大家应该都知道饼图,饼图块的大小表示占总体的比例(频数)。下面是一个例子。频数:“频数”表示在一个特定组,或者说在一个特定区间内的统计对象的数目,类似于数数。饼图可以帮助我们比较各个组的比例,如果大家比例相似,那饼图就用处不大了。条形图条形图一个轴表示类,另一轴表示频数或百分数。可以更精确地指出哪个类的频数最高,也更容易发现细小的差别。它可以是水平或垂直的。下面是垂直条形图的例子(频数标度):水平条形图(百分数标度):标度:指的是需要展示给别人看的值。可以是百分数标原创 2022-03-16 21:01:50 · 12774 阅读 · 0 评论