推荐系统中的数据处理流程解析-优快云博客

推荐系统依赖于数据处理，包括数据收集、存储、分析和过滤。数据收集涉及显性和隐性用户行为数据，数据存储可以选择SQL或NoSQL数据库，数据分析涵盖实时、批量和近实时方法，数据过滤则利用协同过滤等算法为用户提供个性化推荐。先荐作为AI推荐服务，帮助企业搭建推荐系统，提升业务指标。

据统计，全球数据总量预计2020年达到44ZB，中国数据量将达到8060EB，占全球数据总量的18%。现阶段我们所讨论的人工智能，很大程度上都是在谈“人工智能”这个大概念下机器学习领域中的深度学习技术。它的底层原理相对简单，对数据有很大的依赖性，本质上是一种基于大数据的统计分析技术。

推荐系统作为人工智能的落地场景之一，对数据的依赖性不言而喻。企业通过前期的数据收集，全面了解自身的产品和目标用户；之后，通过一系列的数据挖掘技术，对目标用户进行分类，刻画用户画像；最后，再通过数据决策，制定产品运营方案，并不断迭代、优化产品细节。可以说，没有前期的数据，之后的一系列操作无从谈起。

那么，推荐系统是如何处理数据的呢？

一个典型的推荐系统，处理数据通常会经历以下四步：即数据收集、数据存储、数据分析和数据过滤。

数据收集

实现推荐系统的第一步便是收集数据。这些数据可以是显性数据，也可以是隐性数据。显性数据就是指用户主动输入的数据，例如对内容的评论、点赞、转发、下载等，隐性数据是指用户的浏览历史、阅读时长、观看记录、搜索日志等。后台会为每一个使用该产品/访问该站点的用户创建一个数据集。

用户的行为数据很容易收集，通过站点上的用户行为日志就能获取。如果用户已经在使用APP，获取用户的行为数据就不需要用户的额外操作。但这种方法有一个缺点，获取的数据分析起来很麻烦。比如说，从用户的大量行为日志中过滤出真正需要的日志非常麻烦。

由于每个用户对产品的喜好不一，因此收集到的每位用户的数据集也截然不同。随着时间的推移，收集到的用户数据也越来越多，通过一系列数据分析，推荐的结果也会越来越精准。

我们为推荐算法提供的数据越多，推荐的效果就会越精准。这也就意味着，任何推荐问题都可以转变为大数据分析问题来解决。

用于创建推荐结果的数据类型可帮助我们确定应使用的数据存储类型。我们可以选择使用NoSQL（Not Only SQL）数据库、标准SQL数据库，甚至是某种对象存储。根据不同的存储目的如获取用户输入/行为，以及操作的难易程度、存储的数量级、与其他环境的集