引言
我去商场买鞋子,店员问我想买什么样的鞋子?具体有哪些要求?这其实是数据收集的过程。我说:“我想买一双穿着舒服,价格在200元左右,可以水洗的鞋子”。说完店员就从店里挑选了几双鞋给我,这其实是召回的过程。然后店员按照我刚才的描述加上这几双的鞋的销量给排了个序。这个挑选和排序其实就是推荐的过程。
场景设定
我要去商场买一双鞋子。
1. 数据收集
店员: 我刚走进鞋店,店员就开始跟我打招呼,问我一些问题,比如喜欢那种类型的鞋子,穿多大码?注重舒适还是外观?什么场合穿?大概什么价位等。同时观察我的行为、穿着和样貌等。
解析:这其实就是店员在为后续的推荐收集一些必要的数据信息。类似于推荐系统中数据收集阶段,比如用户的浏览记录、点击事件、购买记录和评分等。
2.数据预处理
店员:通过和我的交流,店员需要整理刚才聊天中收集的信息,比如过滤出有用的信息,去除闲聊的内容,还包括她通过观察和理解补充的一些信息。
解析:对收集的数据进行预处理。类似推荐系统中的步骤,如去除噪声数据、填补缺失值、规范数据格式等,确保数据的质量和完整性。
3.特征工程
店员:店员需要把我对鞋子的要求转化成更准确的标签,比如鞋子的尺寸、颜色、材质、价格范围和品牌等。这样一来方便她更快速的查询库存和后续的推荐。
解析:在推荐系统中,特征工程从数据中提取有用的特征,比如用户的年龄、性别、浏览