20年美赛C题数据集解读与O奖论文思路
1 问题重述(中文)
1.1 背景
在其创建的在线市场中,亚马逊为客户提供了对购买进行评分和评价的机会。个人评级-称为“星级”-使购买者可以使用1(低评级,低满意度)到5(高评级,高满意度)的等级来表示他们对产品的满意度。此外,客户可以提交基于文本的消息(称为“评论”),以表达有关产品的更多意见和信息。其他客户可以在这些评论中提交有帮助或无帮助的评分(称为“帮助评分”),以协助他们自己的产品购买决策。公司使用这些数据来深入了解其参与的市场,参与的时间以及产品设计功能选择的潜在成功。
阳光公司计划在在线市场上推出和销售三种新产品:微波炉,婴儿奶嘴和吹风机。他们已聘请您的团队作为顾问,以在与其他竞争产品相关的客户提供的过去评级和评论中识别关键模式,关系,度量和参数,以:
1)告知其在线销售策略;
2)识别潜在的重要设计功能,以增强产品的合意性。
阳光公司过去曾使用数据为销售策略提供信息,但他们以前从未使用过这种特殊的组合和数据类型。阳光公司特别感兴趣的是这些数据中的基于时间的模式,以及它们是否以有助于该公司制造成功产品的方式进行交互。
为了帮助您,阳光公司的数据中心为您提供了该项目的三个数据文件:hair_dryer.tsv,microwave.tsv和pacifier.tsv。这些数据代表在数据指示的时间段内在亚马逊市场上出售的微波炉,婴儿奶嘴和吹风机的客户提供的评分和评论。还提供了数据标签定义的词汇表。提供的数据文件包含您应用于此问题的唯一数据。
1.2 要求:
- 用数学证据、有意义的定量或定性模式、关系、度量和参数分析来识别、描述和支持所提供的三个产品数据集。这些在星级评论和帮助等级之内和之间的参数将帮助阳光公司在他们的三个新的线上市场产品销售中取得成功。
- 用您的分析来解决阳光公司市场总监的以下具体问题和要求:
a.确定评级和评论的数据度量,一旦他们的三种产品在线上市场销售,这些数据对阳光公司来说是最有用的信息。
b.识别和讨论每个数据集当中基于时间的度量和模式,这些度量和模式可能表明一个产品的声誉在线上市场上正在上升或下降。
c.确定基于文本的度量和基于评级的度量的组合,来最好地表示潜在成功或失败的产品。
d.具体的星级会引起更多评论吗? 例如,在看到一系列低星评级之后,顾客是否更有可能发表某种类型的评论?
e.文本评论的具体质量描述(如“热情”,“失望”等)与评分水平是否密切相关? - 给阳光公司的市场总监写一封一到两页的信,总结您团队的分析和结果,包括您的团队最有信心推荐给市场总监的结果的具体理由。
你提交的内容应包括:
- 一页摘要表
- 目录
- 一封一到两页的信函
你的解决方案不得超过20页,加上摘要、目录和信函最多不得超过24页。
数据集定义:
每行代表划分为以下几列的数据。