📅200606
⌚️8:45am
加油打气
本硕都是统计的,但奈何人佛学渣实习弱
脑袋空空啥也不会:>
前二十几年的信条就是 人活着开心的浪就行emm
没啥别的优点 心态贼好 盲目自大的好:>>
也没啥好后悔的 多种多样的人生 感谢每一段经历
也没啥规定人一定要怎样活
玩累了 现在准备好好准备下找工作
回头是岸 再晚只要开始学习就行
因为脑子里没系统 都是零碎知识点 刷题也没用
所以找了本书和视频一起瞅
如果我到时候真的自律且上岸
那证明大家都🉑️!
第一部分:统计理论复习
- 均值(arithmetic mean) 中位数(偶数项取中间两个均值) 众数mode
- 极差 中程数
range : max-min
mid-range : take the average of the largest number and the smallest number
(以上5种考虑的是数据的集中趋势central tendency) - 象形统计图 pictograph (注意图例)
- 条形图(bar graph is good when ur trying to bucket things归类)
- 线形图(trend over time)
- 饼图(how things make up a whole)
- 误导人的线形图(注意刻度scale的起始点以及距离)
- 茎叶图 stem-and-leaf plot(distribution)
Usually, the leaf contains the rightmost digit, or the ones digit and then the stem will contain all of the other digits. - 箱线图(Box-and-whiskers : talk about medians and spread)
先按从小到大的顺序进行排序,找出中位数
将数据分成两部分:<中位数,>中位数(不包含中位数更主流)
再分别在这两部分找到各自的中位数,即为上下四分位数
⌚️9:35-9:45 老年人舒展运动+闭眼休息
- 统计:集中趋势
statistics = descriptive + inferential - 统计:样本和总体
μ : p o p u l a t i o n m e a n \mu : population\ mean μ:population mean
x ‾ : s a m p l e m e a n \overline x : sample\ mean x:sample mean - 统计:总体方差 (measure of dispersion)
σ 2 \sigma^2 σ2 = variance = ∑ i = 1 N ( x i − μ ) 2 N \frac {\sum_{i=1}^{N}(x_i - \mu)^2}{N} N∑i=1N(xi−μ)2 = ∑ i = 1 N x i 2 N − μ 2 \frac{\sum_{i=1}^N x_i^2}N - \mu^2 N∑i=1Nxi2−μ2 - 统计:样本方差
S 2 S^2 S2 = sample variance = ∑ i = 1 n ( x i − x ‾ ) 2 n \frac {\sum_{i=1}^{n}(x_i - \overline x)^2}{n} n∑i=1n(xi−x)2
当所取的样本数据不包含实际的样本均值,此时样本方差就低估了总体方差,因为样本数据离样本均值比总体均值更近
-> 无偏估计 S 2 S^2 S2 = sample variance = ∑ i = 1 n ( x i − x ‾ ) 2 n − 1 \frac {\sum_{i=1}^{n}(x_i - \overline x)^2}{n-1} n−1∑i=1n(xi−x)2 - 统计:标准差
⌚️10:55-12:30 做午饭+看快本+收拾碗筷
😪12:30-2:30 午睡
-
随机变量介绍
random variable : it isn’t a variable in the traditional sense of the world. It’s more of a function that maps us from the world of a random process to a number. And then, this number is going to be random
例如定义随机变量为骰子向上的点数
可分为两类:离散+连续随机变量 -
概率密度函数
连续随机变量取单个点的概率为0,因为是对应区域曲线下的面积 -
二项分布
如何用excel计算二项式系数?阶乘在excel里是fact() -
期望(无穷总体的均值) VS 平均值
⚠️随机变量的期望值也就是总体的均值,也称为总体均值,计算本质是一样的,只是此时的总体是无穷尽的,所以无法全部求和然后除以数目来求均值,而是需要用到频率进行加权平均。
E ( X ) = ∑ ( K × P ( X = K ) ) E(X) = \sum (K \times P(X=K)) E(X)=∑(K×P(X=K)) -
二项分布的期望值
E ( X ) = n p E(X) = np E(X)=np
D ( X ) = n p q D(X) = npq D(X)=npq
⌚️4:00-4:30 看B站+吃零食
⌚️4:30-5:30 刷微博 -
泊松分布
E ( X ) = λ E(X) = \lambda E(X)=λ
X = # of cars pass in an hour
前提假设:
-That any hour at this point on the street is no different than any other hour
-The number of cars pass in one period doesn’t influence the number of cars in the next.
从二项分布推导泊松分布:
-
大数定律
当样本量足够大,样本均值接近总体均值
假设X是投掷100次均匀质地硬币正面向上的次数
⚠️误区:如果前面几次试验的均值大于总体均值,那么根据大数定律,之后试验的出现正面的次数就会更少,以此来拉低之前的均值❌
✅每次试验的概率都是一样的(50%),并不会因为之前正面出现的次数多,后面就会出现的更少。大数定律并不关心之前发生的情况,后面还有无限次的试验,忽略前面有限次试验。将有限个平均值高于期望值的数同无限个收敛于期望值的数一起求均值,最后结果仍然收敛于期望。
⌚️6:00-6:10 家里遛弯
- 正态分布
正态分布是二项分布的近似分布
如何理解正态分布作为二项分布和泊松分布的近似?
用Excel画正态分布的pdf:normdist(x,mu,sd,FALSE)
用Excel画正态分布的cdf:normdist(x,mu,sd,TRUE)
prof上课的excel下载地址 http://www.khanacademy.org/downloads/NormalIntro.xls
-=-
右偏态分布(正偏态分布)偏度skew >0 /左偏态分布(负偏态分布)skew < 0
峰度kurtosis > 0 fatter tails + pointy peak
kurtosis < 0 smaller tails + smoother near the middle
经验法则:正态分布三/二/一个标准差下的面积:99.74%、95.45%、68.27%
-=-
z-score literally just means how many standard deviations you are away from the mean. It could apply to any distribution that you can calculate a mean and a standard deviation.
⌚️7:10-9:40 吃晚饭+室友唠嗑
⌚️9:40-11:00 锻炼+耍手机+看b站
🌸明天出去约饭哈哈哈哈哈
📅200607
🐶睡懒觉+看综艺+约饭(感觉自己误入英语角
还是很感谢新朋友不断cue我说话 奈何我英语不咋地…
📅200608
🐶 睡懒觉
⌚️6:10pm -…
又去吃冰沙了emm
- 中心极限定理 Central Limit Theorem
In some situations, when independent random variables are added, their properly normalized sum tends toward a normal distribution (informally a bell curve) even if the original variables themselves are not normally distributed
-
均值标准误差
σ x b a r 2 = σ 2 n \sigma_{xbar}^2 = \frac {\sigma^2} {n} σxbar2=nσ2
The standard deviation of the sampling distribution of the sample mean is often called the standard deviation/error of the mean. -
抽样分布&置信区间例题
- The average male drinks 2L of water when active outdoors (with a sd = 0.7L) You are planning a full day nature trip for 50 mean and will bring 110L of water. What is the probability that you will run out?
- You sample 36 apples from your farm’s harvest of over 200,000 apples. The mean weight of the sample is 112 grams (with a 40 gram sample standard deviation). What is the probability that the mean weight of all 200,000 apples is within 100 and 124 grams?【没太懂 为啥能用一个样本代替总体】
📅200609-200613 虚度
📅200614
- 伯努利分布
📅200615-200616
剪视频
📅200617
- 误差范围&置信区间
样本均值👇
样本均值的的抽样分布(该分布的均值=原总体均值)
Find an interval such that ‘reasonably confident’ that there is a 95% chance that the true μ \mu μ = p = μ x b a r \mu_{xbar} μxbar is in that interval.
误差范围margin of error 10%
-
小样本容量置信区间(t分布)
当样本容量很小,远小于30,此时如果用样本标准差的公式估计抽样分布标准差( σ / n \sigma/\sqrt n σ/n),就不能将抽样分布看成正态分布,而应假设它有更肥的尾部(t分布)。肥尾是因为低估了抽样分布的标准差。
t表格中说的标准差是通过样本标准差得到的估计值
通过查表 双边95% 自由度为7-1 = 6对应的值是2.447
置信区间2.34+/-0.96
注: z统计量 t统计量的计算公式都是一样的
x b a r − μ x b a r σ x b a r = x b a r − μ x b a r σ / n = x b a r − μ x b a r s / n \frac {xbar - \mu_{xbar}}{\sigma_{xbar}} = \frac {xbar - \mu_{xbar}}{\sigma/\sqrt n} = \frac {xbar - \mu_{xbar}}{s/\sqrt n} σxbarxbar−μxbar=σ/nxbar−μxbar=s/nxbar−μxbar
只是当
n>30 称该统计量为z统计量 服从正态分布
n<30 称该统计量为z统计量 服从正态分布 -
假设检验和p值
得到零假设中的极端情况,甚至更极端情况的概率为p值
- 第一类错误
定义:拒绝了正确的零假设
📅200618
例题
问题1 : 小样本假设检验
问题2 : t统计量置信区间
求
μ
\mu
μ 95%的置信区间
问题3 : 大样本占比假设检验
在这里插入图片描述
- 随机变量之差的方差
Var [X + Y ] = Var [X] + 2Cov (X,Y ) + Var [Y]
📅200619 - 200622
📅200623
Made热到脾气暴躁
-
均值之差的置信区间&假设检验
两种做法 :(1)算置信区间(2)假设检验
-
总体占比的比较
伯努利分布
一总体:
μ
1
=
p
1
\mu_1 = p_1
μ1=p1
σ
1
2
=
p
1
(
1
−
p
1
)
\ \ \ \ \sigma_1^2 = p_1 (1- p_1)
σ12=p1(1−p1)
二总体:
μ
2
=
p
2
\mu_2 = p_2
μ2=p2
σ
2
2
=
p
2
(
1
−
p
2
)
\ \ \ \ \sigma_2^2 = p_2 (1- p_2)
σ22=p2(1−p2)
sampling dist of
p
‾
1
\ \overline p_1
p1:
μ
p
‾
1
=
p
1
\mu_{\overline p_1} = p_1
μp1=p1
σ
p
‾
1
2
=
p
1
(
1
−
p
1
)
/
n
\ \ \ \ \sigma_{\overline p_1}^2 = p_1 (1- p_1)/n
σp12=p1(1−p1)/n
sampling dist of
p
‾
2
\ \overline p_2
p2:
μ
p
‾
2
=
p
2
\mu_{\overline p_2} = p_2
μp2=p2
σ
p
‾
2
2
=
p
2
(
1
−
p
2
)
/
n
\ \ \ \ \sigma_{\overline p_2}^2 = p_2 (1- p_2)/n
σp22=p2(1−p2)/n
sampling dist of
p
‾
1
−
p
‾
2
\ \overline p_1 - \overline p_2
p1−p2:
μ
n
e
w
=
p
1
−
p
2
\mu_{new} = p_1 - p_2
μnew=p1−p2
σ
n
e
w
2
=
p
1
(
1
−
p
1
)
n
+
p
2
(
1
−
p
2
)
n
\ \ \ \ \sigma_{new}^2 = \frac {p_1 (1- p_1)}n + \frac {p_2 (1- p_2)}n
σnew2=np1(1−p1)+np2(1−p2)
📅200624
- 线性回归中的平方误差