支票检测的项目催得很紧,手写体识别这块也不是很顺利,之前断断续续也没有把Yelp的比赛起个好的开头。这周末最后还是放弃了wap的coding题,把Yelp的数据做了一下简单的数据分析。只是重点对评分review进行分析,没有对tag、checkin等其他做分析
任务描述
比赛任务基于主办方给出的商家信息、用户信息、用户在商家的check-in信息和评论信息进行商家推荐。算法是需要参赛者预测用户对其未曾打分的商家的打分。
训练数据
训练数据集包含四个文件
yelp_training_set_business.json(主要包含商家的信息)
yelp_training_set_checkin.json(用户对商家的checkin信息)
yelp_training_set_review.json(用户对商家的评论以及评论,包含打分数据)
yelp_training_set_user.json(用户profile信息,只包含了公开自己信息的user,user信息不全)
主要对商家、用户和review信息进行分析
对business.json和user.json文件进行分析
用户user数量:43873
商家business数量:11537
对用户对商家的评论review.json文件分析结果
revie

这篇博客主要分析了Yelp推荐比赛的训练数据,包括商家、用户和评论信息。用户数量为43873,商家数量为11537,评论打分条目数为229907,评分矩阵稀疏性为0.4334%,平均分为3.7667,标准差为1.217。测试数据中需预测评分条目22956,涉及11926个用户和5585个商家,存在冷启动问题。
最低0.47元/天 解锁文章
2476

被折叠的 条评论
为什么被折叠?



