【秋招】拼多多_数据分析岗_面试题整理

1. 贝叶斯公式复述并解释应用场景

   1)P(A|B) = P(B|A)*P(A) / P(B)

   2)如搜索query纠错,设A为正确的词,B为输入的词,那么:

      a. P(A|B)表示输入词B实际为A的概率

      b. P(B|A)表示词A错输为B的概率,可以根据AB的相似度计算(如编辑距离)

      c. P(A)是词A出现的频率,统计获得

      d. P(B)对于所有候选的A都一样,所以可以省去

 

2. 如何写SQL求出中位数平均数和众数(除了用count之外的方法)

   1)中位数:

方案1(没考虑到偶数个数的情况):

set @m = (select count(*)/2 from table)

select column from table order by column limit @m, 1

方案2(考虑偶数个数,中位数是中间两个数的平均):

set @index = -1

select avg(table.column)

from

(select @index:=@index+1 as index, column

from table order by column) as t

where t.index in (floor(@index/2),ceiling(@index/2))

   2)平均数:select avg(distinct column) from table

   3)众数:select column, count(*) from table group by column order by column desc limit 1(emmm,好像用到count了)

 

3. 学过的机器学习算法有哪些

略。

 

4. 如何避免决策树过拟合

   1)限制树深

   2)剪枝

   3)限制叶节点数量

   4)正则化项

   5)增加数据

   6)bagging(subsample、subfeature、低维空间投影)

   7)数据增强(加入有杂质的数据)

   8)早停

 

5. 朴素贝叶斯的理解

   1)推导(参考:https://www.cnblogs.com/pinard/p/6069267.html

   2)理解:朴素贝叶斯是在已知一些先验概率的情况下,由果索因的一种方法

   3)其它:朴素的意思是假设了事件相互独立

 

6. SVM的优点

   1)优点:

      a. 能应用于非线性可分的情况

      b. 最后分类时由支持向量决定,复杂度取决于支持向量的数目而不是样本空间的维度,避免了维度灾难

      c. 具有鲁棒性:因为只使用少量支持向量,抓住关键样本,剔除冗余样本

      d. 高维低样本下性能好,如文本分类

   2)缺点:

      a. 模型训练复杂度高

      b. 难以适应多分类问题

  &nb

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值