供学弟学妹们参考,整体上难度很大,尤其是前两道题,非常灵活。上课讲过的证明题也会出现。这里只回忆每道题的大概意思以及分值,不保证完全一样(尤其是分值可能记的不是很准确,但是分值的相对高低是差不多的),供大家参考。
卷面无小题,一共7道大题,共50分。
1.(6分)时间序列数据中,后面的数据会和前面一个或多个数据相关。经典的K交叉验证无法直接用于时间序列数据。请你设计一种可以用于时间序列数据的K交叉验证方法。要求:
(1)详细说明数据划分的方法(2分)
(2)说明如何利用划分后的数据进行验证(2分)
(3)验证结果怎么评价(2分)
2.(6分)MDS是一种常见的降维方法,但是由于数据集中噪声的存在会导致降维结果出现较大偏差。原本距离较远的点可能在降维后的结果中较近,原来距离较近的点可能在降维后的结果中较远。请你设计一种数据预处理方法处理噪声。
(1)分析噪声数据对MDS造成很大影响的原因。(2分)
(2)请你详细论述发现数据集上噪声的方法。(2分)
(3)给出发现噪声后的处理方法。(2分)
3.(8分)推荐系统的题。
(1)说明user-user的推荐系统的做法;如何计算用户评分向量;分析该算法的时间复杂度。(3分)
(2)说明item-itmen的推荐系