(注:以下题目主要来自牛客网等论坛,解答由个人解答,可能会出现错误,并非标准答案,欢迎大家进行讨论)
1. 请说明随机森林较一般决策树稳定的几点原因
1)bagging的方法,多个树投票提高泛化能力
2)bagging中引入随机(参数、样本、特征、空间映射),避免单棵树的过拟合,提高整体泛化能力
2. 什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。
1)聚类分析是一种无监督的学习方法,根据一定条件将相对同质的样本归到一个类总
2)聚类方法主要有:
a. 层次聚类
b. 划分聚类:kmeans
c. 密度聚类
d. 网格聚类
e. 模型聚类:高斯混合模型
3)k-means比较好介绍,选k个点开始作为聚类中心,然后剩下的点根据距离划分到类中;找到新的类中心;重新分配点;迭代直到达到收敛条件或者迭代次数。 优点是快;缺点是要先指定k,同时对异常值很敏感。
3. 根据要求写出SQL
表A结构如下:
Member_ID(用户的ID,字符型)
Log_time(用户访问页面时间,日期型(只有一天的数据))
URL(访问的页面地址,字符型)
要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致)
create table B as select Member_ID, min(Log_time), URL from Agroup byMember_ID
4. 销售数据分析
以下是一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师,
a) 从数据中,你看到了什么问题?你觉得背后的原因是什么?
b) 如果你的老板要求你提出一个运营改进计划,你会怎么做?
表如下:一组每天某网站的销售数据
(没有表,所以略)
5. 用户调研
某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题:
a) 试验需要为决策提供什么样的信息?
b) 按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。
a) 试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。
b) 根据三类客户的数量,采用分层比例抽样,然后灰度。
需要采集的数据指标项有:客户类别,改进计划前周消费次数,改进计划后周消费次数;选用统计方法为:分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验。
(不知道这算不算事前实验。如果不执行行为直接分析的话,那分析行为应该是在提出改进方案前进行的)
6. 观测宇宙中单位体积内星球的个数,属于什么分布:
A 学生分布:小样本量下对正态分布的均值进行估计
B 泊松分布:某段时间内,事件发生的概率。也可以认为是n很大p很小的二项分布。
C 正态分布:多组(多次独立重复实验下的随机变量的均值)
D 二项分布:多次抛硬币的独立重复试验
把体积看成时间,那么本题符合B泊松分布。
7. 一些关于数据挖掘说法是正确的
A 数据挖掘是万能的(错)
B 如果你建立了一个database,那就意味着你已经有足够的数据可以做数据挖掘了(错)
C 数据挖掘=数据+算法,数据挖掘人员大部分的时间用来处理复杂的挖掘算法(错,业务上的时间大部分在调研和沟通需求,技术上大部分时间在清洗数据)
D ABC均有错(√)
8. 已知随机变量X,Y分别服从泊松分布P(S),卡方分布X2(t),E(X)=4,D(Y)=9,则参数s,t分别:
A 2,9
B 4,9
C 4,4.5(√)
D 2,4.5
9. 下面算法中哪一种不属于广义线性回归算法
A 生存模型算法(如Cox比例风险回归,属于)
B beta回归算法(属于)
C logit回归算法(属于)
D 判别分析算法(如线性判别分析LDA,不清楚是否属于)
10. 有一列1000万淘宝买家的淘宝运费险保费数据,要计算该列数据的P1-P100分位数,可使用哪个SAS语句?
A proc sort
B proc rank
C proc univariate(√)
D proc freq
11. X服从区间(2,6)上的均匀分布,求对X进行3次独立观测中,至少有2次的观测值大于3的概率
A 0.84375(√)
B 0.75275
C 0.65275
D 0.80370
12. 下面对于“预测变量间可能存在较严重的多重共线性”的论述中