2019年 第一批
1. 想要了解上海市中学生的身高,从中抽取了1000个样本,这项调查中的样本是 从中抽取的1000名中学生的身高
2. 偏态分布一般用以下哪个指标描述集中趋势 中值 (偏态分布,平均值的代表性比较差 ,所以使用中值)
3. 在以下不同的场景中,使用的分析方法不正确的有 D
A. 根据商家最近一年的经营及服务数据,用聚类算法判断出小红书商家在各自主营类目下所属的商家层级
B. 用关联规则算法分析出对护肤内容有兴趣的用户,是否对彩根据妆内容感兴趣
C. 根据用户最近购买的商品信息,用决策树算法识别出用户是男是女
D. 根据商家近几年的成交数据,用聚类算法拟合用户未来一个月可能的消费金额公式 (聚类时无监督聚类算法,应该用回归)
4. 用算法拦截可疑笔记,描述拦截的笔记中有多少是真的可疑笔记是 准确率
解释:在预测为可疑笔记中有多少是真的可疑!
5. 【查几种检验方法】当总体分布未知的情况下,可以采用以下哪种检验方法? D
A. T检验 (F检验可以判断是否齐方差,T检验则需要根据是否齐方差决定使用T检验还是T'检验)
B. 方差分析
C. F检验
D. KS检验
6. 在做数据分析中,如何处理异常或是缺失数据,请选择一下你认为正确的答案D
不处理
删除元组
数据补齐
以上全对
7. 下列哪一项不是描述连续变量的 ABC
二项分布
泊松分布
超几何分布
正态分布 (连续变量的描述)
离散变量的概率分布,常用的有二项分布、泊松(Poisson)分布。其余的还有两点分布、几何分布、超几何分布等概率分布。
8. 下列关于相关系数的说法,正确的是 AC
A. 相关系数的数值越大,说明两个变量之间的相关程度越高
B.若相关系数r=0,则表明两个变量之间不存在任何相关关系 (R=0只是表示无线性相关,也可能存在非线性相关 )
C. 若相关系数>0,则称两个变量正相关;若相关系数&l