开头依然自我介绍+依照项目发问。
1 异常数据分析。我的简历里写到这条,他让我着重说了一下,然后我介绍了一下捕捉异常数据的方法,都是依据业务给规则来输出的异常。所以面试官问为什么选择用规则而不用异常检测的模型。
这个问题问得挺好,用模型识别异常数据泛化性更强,并且随着业务的增长,阈值等也可以动态变化。但用规则的原因可以分两点:第一,规则便于业务人员理解,项目是业务主导,且项目时间较短,设置规则识别异常可能是短时间内最快且直接的途径。模型或算法的结果可能难以在短时间内超过业务规则,不过在二期可以优化;第二个设置规则的目的跟用模型识别的目的不同。 看板的数据主要为业务的考核数据,反映的是实际业务变化。例如他从业务的经验出发认为某指标超过某个阈值业务发展就可能存在问题,这种是总部定的考核规则,非监督学习是无法学习的。
2 什么是充分统计量和完备统计量
简单的说,知道了充分统计量我们就可以扔掉样本,因为样本里的信息全都被包含在充分统计量里面。对于正态分布来说,充分统计量,一个均数,一个是方差。有了这两个参数(数据),你就可以决定一个正态分布了。那么这两个就是充分统计量,缺一不可。
完备统计量( complete statistic):若存在一个统计量,使得对于总体参数的任意函数,基于该统计量的无偏估计至多只有一个,则称之为完备统计量
3 什么是大数定理(我淦,居然还被问到本科上课的定理。。。)
4 l1正则和l2正则是什么,作用是
为了防止模型处于过拟合状态,需要用L1正则化和L2正则化降低模型的复杂度,很多线性回归模型正则化的文章会提到L1是通过稀疏参