1、评价指标:精确率召回率一般用来评价推荐结果准不准确
准确率:所有预测正确的占总的数量的比重(正负)
精确率:所有预测为正的样本中,实际为正的概率 TP / (TP + FP)
召回率:实际为正的样本中,被预测为正的概率 TP / (TP + FN)
TP:预测为1,实际为1
FP:预测为1,实际为0
FN:预测为0,实际为1
TN:预测为0,实际为0
2、观点挖掘结果评价:
F1分数(F1 Score):是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。
F1分数可以看作是模型精确率和召回率的一种加权平均,它的最大值是1,最小值是0。
此外还有F2分数和F0.5分数。
F1分数认为召回率和精确率同等重要
F2分数认为召回率的重要程度是精确率的2倍
而F0.5分数认为召回率的重要程度是精确率的一半
3、预测结果评价:RMSE、MAE
4、一些模型
Stanford POS Tagger:词性标注
word2vec模型:产生词向量
5、冷启动对不同目标对象的理解
用户角度:新用户的加入,导致无法区分用户特征;新用户未给任何项目评分,导致缺乏用户喜好信息
项目角度:新产品缺少用户评分
6、数据稀疏
已获得用户评价打标签或的项目数量远远小于未获得的项目数量。基于标签的推荐系统中,数据稀疏的问题更为严重
7、协同过滤分类
基于内容:用户相似性度量,易于更新,易于更新新的评分和项目。数据稀疏时基于内存的方法性能降低,不具有可扩展性
基于模型