【校招面经】统计与概率基础 part1

注:以下是本人春招时看面经时收集的常见面试题,答案部分是由网上多个信息源整理而成,部分是个人解答。当时整理时只是自己看的,很多没有注明来源地址,后续有时间补上来源,如有侵权请告知。

 

一、p值的含义

其实理解起来很简单,基本原理只有3个: 1、一个命题只能证伪,不能证明为真 2、在一次观测中,小概率事件不可能发生 3、在一次观测中,如果小概率事件发生了,那就是假设命题为假

证明逻辑就是:我要证明命题为真->证明该命题的否命题为假->在否命题的假设下,观察到小概率事件发生了->否命题被推翻->原命题为真->搞定。

结合这个例子来看:证明A是合格的投手-》证明“A不是合格投手”的命题为假-》观察到一个事件(比如A连续10次投中10环),而这个事件在“A不是合格投手”的假设下,概率为p,小于0.05->小概率事件发生,否命题被推翻。

可以看到p越小-》这个事件越是小概率事件-》否命题越可能被推翻-》原命题越可信

---------------------

这个过程实际上和人脑的做判断的过程很相似

作者:吉米多维奇

链接:https://www.zhihu.com/question/23149768/answer/31704861

 

二、协方差和相关性有什么区别?

相关性是协方差的标准化格式。协方差本身很难做比较。例如:如果我们计算工资($)和年龄(岁)的协方差,因为这两个变量有不同的度量,所以我们会得到不能做比较的不同的协方差。

为了解决这个问题,我们计算相关性来得到一个介于-1和1之间的值,就可以忽略它们各自不同的度量。

 

三、相关系数与余弦相似度

数学公式:

两个向量(x1,x2,x3)(y1,y2,y3)

求内积a・b  =        cos <a, b> |a| |b|         = x1*y1+x2*y2+x3*y3

==========================================

有两个向量,我们希望定义它们是不是相关。一个很自然的想法,用向量与向量的夹角来作为距离的定义,夹角小,就“距离”小,夹角大,就“距离”大。

==========================================

step1:

两个向量的夹角的余弦,就叫做“相关系数”,cos <a, b> =(a・b)/|a||b|,写开了就是:

 

余弦=相关系数;内积=协方差

step2:

 

回到正题上来,我就简称cos和pearson吧。如果把向量中心化之后,这两个就是一个东西了,什么叫中心化,就是每个数减去均值。这个要不要中心化有啥影响呢。就是这篇文章里的这个例子,比如两个用户对商品评价的变化趋势其实是一样的,但是一个用户倾向于总体给低分,一个用户倾向于总体给高分,这时用cos可能就有问题了,这就是为什么有人说计算cos的时候要先把数据中心化。

举个简单的例子帮助理解吧。比如有两个2维向量,x=(1, 2)和y=(3, 5),很明显y是由x通过线性变换得到的,pearson相关系数应该为1,但是这两个点肯定不在一条过原点的直线上,因此它们夹角的cos肯定不是1。但是中心化之后,x=(0.5, 0.5),y=(1, 1),这就在一条过原点的直线上了。

 

四、相关系数的快速计算

cov(x,y)=EXY-EX*EY

  协方差的定义,EX为随机变量X的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值