问17:提供一个简单的示例,说明实验设计如何帮助回答有关行为的问题。实验数据与观测数据对比如何?
观测数据来自观测研究,即当你观测某些变量并试图确定是否存在相关性时。
实验数据来自实验研究,即当你控制某些变量并将其保持恒定以确定是否存在因果关系时。
实验设计的一个示例如下:将一组分成两部分。对照组正常生活。测试组被告知持续30天每晚喝一杯葡萄酒。然后可以进行研究,看看葡萄酒如何影响睡眠。
问18:缺失数据的均值插补是否可以接受?为什么或者为什么不?
均值插补是用数据均值替换数据集中的空值。
均值插补通常是不好的做法,因为它没有考虑特征相关性。例如,假设我们有一个显示年龄和健康得分的表,并且假设一个八十岁的老人缺少健身分数。如果我们取15到80岁这一年龄段之间的平均健康分数,那么八十岁的老人看起来会比他实际应该有的高得多的健康分数。
其次,均值插补减少了数据的方差,并增加了我们数据的偏差。由于方差较小,导致模型精度较低,置信区间较窄。
问19:什么是离群值?解释如何筛选离群值,以及在数据集中发现离群值时将如何处理?另外,请解释什么是内部值,以及如何筛选它们,以及在数据集中发现内部值时将如何处理?
离群值是与其他观测值有显著差异的数据点。
z分数/标准差:如果我们知道数据集中99.7%的数据位于三个标准差之内,那么我们可以计算一个标准差的大小,将其乘以3,并确定超出此范围的数据点。同样,我们可以计算给定点的z分数,如果它等于+/- 3,则为离群值。
注意:使用此方法时需要考虑一些意外情况;数据必须是正态分布的,不适用于小型数据集,并且存在太多离群值可能会使z得分下降。
其他方法包括数据库扫描聚类(DBScan clustering)、隔离林(Isolation Forests)和稳健随机砍伐林(Robust Random Cut Forsets)。
问20:如何处理丢失的数据?你推荐哪种插补技术?
有几种处理丢失数据的方法:
· 删除缺少数据的行
· 均值/中位数/众数
· 分配唯一值
· 预测缺失值
· 使用支持缺失值的算法,例如随机森林
最好的方法是删除缺失数据的行,因为这样可以确保不添加或删除任何偏差或方差,并最终形成一个健壮且准确的模型。但是,仅当有大量数据开始且缺失值的百分比较低时,才建议这样做。
问21:你拥有有关呼叫中心通话时长的数据。为如何编写代码和分析这些数据指定一个计划。解释一个合理的场景,说明这些持续时长的分布情况。如何以图形方式测试,你的期望是否得到证实?
首先,我们将进行EDA——探索性数据分析,以清理、探索和理解我们的数据。请在此处查看我们有关EDA的文章。作为EDA的一部分,我们可以编写一个调用通话持续时长的直方图以查看潜在分布。
我们的猜测是通话时长将遵循对数正态分布(请参见下文)。我们认为它出现正偏的原因是,由于通话不能为负秒,因此下限限于0。但是,从高端来看,相对较长的通话很可能只占一小部分。
你可以使用QQ图来确认通话时长是否遵循对数正态分布。请参阅此处以了解有关QQ图的更多信息。
问22:解释管理数据集和从实验研究中收集的数据集之间可能存在的差异。管理数据可能遇到什么问题?实验方法如何帮助缓解这些问题?它们带来什么问题?
管理数据集通常是政府或其他组织出于非统计原因使用的数据集。
管理数据集通常比实验研究更大且更具成本效益。假设与管理数据集相关联的组织处于活动状态且运行正常,它们也会定期更新。同时,管理数据集可能无法捕获一个人所有需要的数据,并且可能也未采用所需的格式。它还容易出现质量问题和条目丢失。
问23:你正在为每个月上传的用户内容编写一份报告,并注意到10月份的上传量激增。特别是图片上传数量激增。你认为这是什么原因造成这种情况的,你将如何检验呢?
导致照片上传数量激增的潜在原因有很多:
1、一项新功能可能已在10月实现,该功能涉及上传照片并获得了用户的极大关注。例如,提供创建相册功能的功能。
2、同样,以前上传照片的过程可能不直观,在10月份有所改善。
3、可能有一种病毒式的社交媒体运动,涉及上传持续到整个10月的照片。例如。Movember,但更具可扩展性。
4、出现高峰的原因可能是人们在万圣节张贴自己奇装异服的照片。
检验方法取决于峰值的原因,但你将进行假设检验以确定推断出的原因是否是实际原因。
问24:举例说明不具有高斯分布或对数正态的数据。
任何类型的分类数据都不会具有高斯分布或对数正态分布。
指数分布——例如汽车电池持续使用的时间或直到地震发生的时间。
相关性衡量两个变量之间的关系,范围从-1到1。
因果关系是指第一个事件似乎导致了第二个事件。因果关系实质上着眼于直接关系,而相关性可以着眼于直接和间接关系。
例如:在加拿大,较高的犯罪率与较高的冰淇淋的销量相关联,也就是说是正相关的。但是,这并不意味着一个导致另一个,相反,而是因为当室外变暖时,两者都会更多地发生。
你可以使用假设检验或A / B检验来检验因果关系。
问26:举一个例子,中位数比平均值更好
当有许多离群值使数据出现正偏或负偏时。
问27:给定两个公平的骰子,获得总分为4的概率是多少?总分为8的概率呢?
投掷4(1 + 3、3 + 1、2 + 2)有4种组合:
P(投掷一个4)= 3/36 = 1/12
投掷8(2 + 6、6 + 2、3 + 5、5 + 3、4 + 4)的组合:
P(投掷一个8)= 5/36
问28:什么是大数定律?
大数定律是这样一种理论,即随着试验次数的增加,结果的平均值将越来越接近预期值。
例如,将公平硬币的正面翻转100,000次应该比100次更接近。
问29:如何计算所需的样本量?
你可以使用误差范围(ME)公式确定所需的样本量。
· t / z =用于计算置信区间的t / z分数
· ME =期望的误差范围
· S =样本标准偏差
大厂面试经(3)
最新推荐文章于 2024-02-08 01:03:59 发布