【校招面经】阿里巴巴_数据分析岗_面试笔试题

(注:以下题目主要来自牛客网等论坛,解答由个人解答,可能会出现错误,并非标准答案,欢迎大家进行讨论)

 

1. 请说明随机森林较一般决策树稳定的几点原因

   1)bagging的方法,多个树投票提高泛化能力

   2)bagging中引入随机(参数、样本、特征、空间映射),避免单棵树的过拟合,提高整体泛化能力

 

2. 什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。

   1)聚类分析是一种无监督的学习方法,根据一定条件将相对同质的样本归到一个类总

   2)聚类方法主要有:

      a. 层次聚类

      b. 划分聚类:kmeans

      c. 密度聚类

      d. 网格聚类

      e. 模型聚类:高斯混合模型

   3)k-means比较好介绍,选k个点开始作为聚类中心,然后剩下的点根据距离划分到类中;找到新的类中心;重新分配点;迭代直到达到收敛条件或者迭代次数。 优点是快;缺点是要先指定k,同时对异常值很敏感。

 

3. 根据要求写出SQL

表A结构如下:

Member_ID(用户的ID,字符型)

Log_time(用户访问页面时间,日期型(只有一天的数据))

URL(访问的页面地址,字符型)

要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致)

create table B as select Member_ID, min(Log_time), URL from Agroup byMember_ID

 

4. 销售数据分析

以下是一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师,

a) 从数据中,你看到了什么问题?你觉得背后的原因是什么?

b) 如果你的老板要求你提出一个运营改进计划,你会怎么做?

表如下:一组每天某网站的销售数据

(没有表,所以略)

 

5. 用户调研

某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题:

a) 试验需要为决策提供什么样的信息?

b) 按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。

   a) 试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。

   b) 根据三类客户的数量,采用分层比例抽样,然后灰度。

   需要采集的数据指标项有:客户类别,改进计划前周消费次数,改进计划后周消费次数;选用统计方法为:分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验。

(不知道这算不算事前实验。如果不执行行为直接分析的话,那分析行为应该是在提出改进方案前进行的)

 

6. 观测宇宙中单位体积内星球的个数,属于什么分布:

A 学生分布:小样本量下对正态分布的均值进行估计

B 泊松分布:某段时间内,事件发生的概率。也可以认为是n很大p很小的二项分布。

C 正态分布:多组(多次独立重复实验下的随机变量的均值)

D 二项分布:多次抛硬币的独立重复试验

把体积看成时间,那么本题符合B泊松分布。

 

7. 一些关于数据挖掘说法是正确的

A 数据挖掘是万能的(错)

B 如果你建立了一个database,那就意味着你已经有足够的数据可以做数据挖掘了(错)

C 数据挖掘=数据+算法,数据挖掘人员大部分的时间用来处理复杂的挖掘算法(错,业务上的时间大部分在调研和沟通需求,技术上大部分时间在清洗数据)

D ABC均有错(√)

 

8. 已知随机变量X,Y分别服从泊松分布P(S),卡方分布X2(t),E(X)=4,D(Y)=9,则参数s,t分别:

A 2,9

B 4,9

C 4,4.5(√)

D 2,4.5

 

9. 下面算法中哪一种不属于广义线性回归算法

A 生存模型算法(如Cox比例风险回归,属于)

B beta回归算法(属于)

C logit回归算法(属于)

D 判别分析算法(如线性判别分析LDA,不清楚是否属于)

 

10. 有一列1000万淘宝买家的淘宝运费险保费数据,要计算该列数据的P1-P100分位数,可使用哪个SAS语句?

A proc sort

B proc rank

C proc univariate(√)

D proc freq

 

11. X服从区间(2,6)上的均匀分布,求对X进行3次独立观测中,至少有2次的观测值大于3的概率

A 0.84375(√)

B 0.75275

C 0.65275

D 0.80370

 

12. 下面对于“预测变量间可能存在较严重的多重共线性”的论述中

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值