数据挖掘初体验

最新推荐文章于 2025-08-22 11:10:38 发布

转载最新推荐文章于 2025-08-22 11:10:38 发布 · 59 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/leestar/archive/2011/11/22/2810634.html

文章标签：

#数据库 #数据结构与算法

本文分享了一个数据挖掘初学者使用推荐算法预测用户对电影评分的小实验经历。作者在实验过程中遇到了数据处理难题，并尝试通过数据库存储简化操作。文章还讨论了不同数据存储方式的选择及其对实验的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在做数据挖掘应该说是入门的一个小实验，就是预测用户对电影的打分的一个推荐算法。

感觉到处理数据是一件特别麻烦的事情，特别是漫长的等待时间，已经尽可能的构造出记录最少的用户相似性矩阵或者电影的相似性矩阵（我用了特别偷懒的做法，存放在数据库里面实现），因为都用到数据库，所以免去了写一些关于数据结构的操作，自己也很疑惑，到底数据挖掘过程的这些数据，一般是存放数据库进行操作还是直接在内存上面进行一次性操作处理的？问了老师，老师也只是说根据实际情况。

的确，存放数据库免去了很大的工作量，数据库本来就是一个很完美的数据结构了，少去了查找的麻烦，少去了hash操作的麻烦，只要写sql语句就够了，但是在做好CF之后我就觉得这样做没什么技术含量，少去了运用到一些数据结构带来的技术难题（对我来说的确是难题，数据结构和算法不是很好）。

在9000测试集和40000训练集下，预测到的结果MAE0.69，我表示有点怀疑，因为我只用到了CF，测试集里面的某些用户还是训练集里面没有的，这个办法用CB可以解决，但是CB所涉及到的操作，必须是提取用户的关键字TAG做相似性比较了，这个对我来说的确很有难度。哎，虽然只是一个作业，的确想提高一下挖掘的质量，但是要付出的或许又是要几天了，最近各种考试来临了，有空还是要好好研究CB，对字符串的相似性比较。

希望自己能把我每一天的学习，积累，收获！

转载于:https://www.cnblogs.com/leestar/archive/2011/11/22/2810634.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。