哈工大2024春大数据挖掘期末考试回忆版试题

  供学弟学妹们参考,整体上难度很大,尤其是前两道题,非常灵活。上课讲过的证明题也会出现。这里只回忆每道题的大概意思以及分值,不保证完全一样(尤其是分值可能记的不是很准确,但是分值的相对高低是差不多的),供大家参考。

卷面无小题,一共7道大题,共50分。

1.(6分)时间序列数据中,后面的数据会和前面一个或多个数据相关。经典的K交叉验证无法直接用于时间序列数据。请你设计一种可以用于时间序列数据的K交叉验证方法。要求:

(1)详细说明数据划分的方法(2分)

(2)说明如何利用划分后的数据进行验证(2分)

(3)验证结果怎么评价(2分)

2.(6分)MDS是一种常见的降维方法,但是由于数据集中噪声的存在会导致降维结果出现较大偏差。原本距离较远的点可能在降维后的结果中较近,原来距离较近的点可能在降维后的结果中较远。请你设计一种数据预处理方法处理噪声。

(1)分析噪声数据对MDS造成很大影响的原因。(2分)

(2)请你详细论述发现数据集上噪声的方法。(2分)

(3)给出发现噪声后的处理方法。(2分)

3.(8分)推荐系统的题。

(1)说明user-user的推荐系统的做法;如何计算用户评分向量;分析该算法的时间复杂度。(3分)

(2)说明item-itmen的推荐系

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值