据统计,全球数据总量预计2020年达到44ZB,中国数据量将达到8060EB,占全球数据总量的18%。现阶段我们所讨论的人工智能,很大程度上都是在谈“人工智能”这个大概念下机器学习领域中的深度学习技术。它的底层原理相对简单,对数据有很大的依赖性,本质上是一种基于大数据的统计分析技术。
推荐系统作为人工智能的落地场景之一,对数据的依赖性不言而喻。企业通过前期的数据收集,全面了解自身的产品和目标用户;之后,通过一系列的数据挖掘技术,对目标用户进行分类,刻画用户画像;最后,再通过数据决策,制定产品运营方案,并不断迭代、优化产品细节。可以说,没有前期的数据,之后的一系列操作无从谈起。
那么,推荐系统是如何处理数据的呢?
一个典型的推荐系统,处理数据通常会经历以下四步:即数据收集、数据存储、数据分析和数据过滤。
数据收集
实现推荐系统的第一步便是收集数据。这些数据可以是显性数据,也可以是隐性数据。显性数据就是指用户主动输入的数据,例如对内容的评论、点赞、转发、下载等,隐性数据是指用户的浏览历史、阅读时长、观看记录、搜索日志等。后台会为每一个使用该产品/访问该站点的用户创建一个数据集。
用户的行为数据很容易收集,通过站点上的用户行为日志就能获取。如果用户已经在使用APP,获取用户的行为数据就不需要用户的额外操作。但这种方法有一个缺点,获取的数据分析起来很麻烦。比如说,从用户的大量行为日志中过滤出真正需要的日志非常麻烦。
由于每个用户对产品的喜好不一,因此收集到的每位用户的数据集也截然不同。随着时间的推移,收集到的用户数据也越来越多,通过一系列数据分析,推荐的结果也会越来越精准