基于Hadoop的用户购买行为商品推荐系统(源码+万字报告+部署讲解等)

原创于 2024-12-28 23:12:29 发布 · 496 阅读

CC 4.0 BY-SA版权

文章标签：

目录
摘要 I
第一章绪论 1
1.1研究背景 1
1.2研究现状 1
1.2.1个性化推荐系统 1
1.2.2个性化推荐算法 2
1.3研究内容 3
第二章相关技术 4
2.1 Hadoop简介 4
2.1.1HDFS 4
2.1.2 MapReduce 4
2.2 Mahout简介 4
2.3 Hive简介 4
2.4 HBase简介 6
2.5 Hadoop生态系统 6
第三章基于用户特征的推荐算法 6
3.1用户特征分析 6
3.1.1本文所用的用户特征 6
3.1.2用户偏好特征数据的获取 7
3.1.3用户偏好特征分析 7
3.2 基于用户特征的推荐算法 8
3.2.1算法思想 8
3.2.2算法描述 8
3.2.3算法的优点 8
3.3实验与分析 9
3.3.1实验环境和数据 9
3.3.2实验结果与分析 10
第四章推荐模型及实验结果分析 11
4.1曝光物品筛选流程 11
4.2基于DNN的Word2Vec推荐流程 12
4.3实验结果分析 13
4.3.1实验硬件环境与数据 13
4.3.2实验评价指标 13
4.3.3实验结果及分析 13
4.4本章小结 13
第五章结论 13
参考文献 14

第一章绪论
1.1研究背景
随着信息技术的不断发展，越来越多的交易买家在网上购物，而在线商城为了促进销量和减少资源的投入，让浏览者更容易购买他们的商品，因此将比较重视对用户的认知模型进行研究，据此进行匹配用户的行为模型进行以定向的推荐。用户的行为非常复杂，大量的研究者从商品的价格、品牌、功能，以及评价等方面入手，尝试进行用户行为的模式分析与挖掘，但是最终的结果虽然能够体现出不同用户之间模式的不同，但是无法对用户具有个性化的深度分析，因此在推荐系统建立方面尚有待提高，而Hadoop作为当前最为流行且性能最强大的分布式计算技术，将为这种技术提供更广阔的应用平台，以及可能更好的性能，可以让更多的用户购物行为进行更深入的分析以及模型的应用。本研究将基于Hadoop的技术，搭建一套可以更好的进行用户购买行为分析和商品推荐的系统，通过分布式的框架，可以更加快捷的实现用户行为的收集、储存和分析，为商家提供更为个性化的用户购买建议，让消费者在商城中能够更顺畅、更安全的完成购物活动，也可以更方便的获取消费需求。在实际中，推荐系统也在市面上有很多的应用，但是很多的情况下，推荐的商品和用户的需求的匹配性并不能达到满意的标准，除了用户模型的不完整，在分析用户行为过程中，大量的时间和资源都会被浪费，推荐系统的效率也会不断降低。所以本研究也将提出许多新的方法，尝试用Hadoop进行分布式计算，帮助交易买家在购物过程中更容易实现顺利、安全的挖掘用户行为模型，并且能够更有效的进行商品推荐，从而更积极地促进用户的购买。总之，本文研究的主题是通过基于Hadoop的推荐系统对买家的购买行为进行分析，以达到更有效的推荐商品，提升买家的购买体验，而Hadoop正是这种更为有效的系统分析的技术框架，为用户的购买行为进行有效的分析以及app应用提供更广阔的可能，也让用户在线购物更安全更顺畅，达到更好的客户满意度结果。
1.2研究现状
1.2.1个性化推荐系统
个性化推荐系统已经受到越来越多企业的青睐和广泛采用，它通过对传统的推荐系统的价值创造，可以帮助企业实现客户体验的持续改善，从而缩短企业与客户之间的距离，这也是未来商业发展所必需的利器。而基于Hadoop的用户购买行为商品推荐系统，则更为企业提供了构建和实施个性化推荐系统的可靠方案。Hadoop框架充分利用了廉价的低成本传统的硬件资源，支撑了以大数据为特征的高质量、齐全的个性化推荐系统。其次，Hadoop分布式框架使企业能够及时地从海量的现有数据源中挖掘出个性化推荐系统所需要的信息、技术和分析技术，使企业能够从大数据768中收集到丰富的数据，构建出精准、全面的商品推荐系统，实现企业与消费者之间更加深入的心理联系。近些年来，基于Hadoop的个性化推荐系统已经被广泛使用，国内外企业都在利用自身的大数据资源，搭建个性化推荐系统，以改善客户体验，提升业务发展。比如，雅虎公司就采用Hadoop框架，构建了用户信息收集、数据分析和商品推荐等技术支撑，实现更加精准的电子商务营销应用。百度公司也采用Hadoop框架，构建了大数据中心，完善它对不同搜索词的检索结果，使各个用户都能有更好的检索体验和更准确的搜索结果。除此之外，国内众多电商网站，以及各类社交网络，也都在用Hadoop构建他们的推荐系统，实现客户体验的持续改善。在国外，LinkedIn、Amazon、Facebook等大型网站也都在构建基于Hadoop的用户购买行为商品推荐系统。LinkedIn利用Hadoop收集了用户的各搜索行为，然后根据用户的个人信息，以及用户的行为特征，分析出精准的推荐措施，为用户推荐最符合用户需要的商品和服务。Amazon则将用户喜好信息、商品相关评价等数据进行采集，统计分析，对商品搜索结果进行排序，可以更精准地在商品搜索页面显示用户可能最感兴趣的商品。总之，随着Hadoop技术在个性化推荐系统的大量用户的应用，企业们现在都可以依靠海量的用户行为信息来构建出精准、实用的个性化推荐系统，实现企业与消费者之间更加深入的心理联系。
1.2.2个性化推荐算法
个性化推荐算法是指根据用户的历史信息，运用算法或者机器学买的策略，来推荐用户可能喜欢的内容的技术。它能够将所有的用户信息整理和汇总，并能分析出每个用户的个性和目标，进而实现针对用户个性进行信息、服务提供，以满足用户的需求。个性化推荐算法研究现状主要包括内容基础推荐，基于概率推荐和基于机器学习的推荐算法，本文将从这三方面来进一步阐述。内容分析推荐算法，也叫做协同过滤（Collaborative Filtering），是一种基于用户行为数据的推荐算法，常见于产品推荐、电影推荐等。根据用户历史记录行为模式，有相似用户和相同内容，而进一步判断用户喜欢与不喜欢，从而只给用户推荐可能喜欢的产品。此类算法常用的技术有：用户-物品协同过滤算法（User-to-Item Based Collaborative Filtering），基于物品的协同过滤算法（Item-Based Collaborative Filtering），针对评分矩阵的KNN和SLOPE ONE过滤算法，和基于模糊的优先推荐等。基于概率推荐算法是基于马尔可夫模型进行递归实现，采用概率模型和时间结构，分析并预测用户的购买行为，进行推荐。概率模型通过建立用户购买物品的概率分布，然后根据历史数据，估计用户在特定时间做特定行为的概率。基于概率模型的推荐算法有隐马尔可夫模型（Hidden Markov Model），隐态状态跟踪（Hidden State Tracking）DNA-Chip技术及其应用，Q学习（Q-Learning），蒙特卡洛方法 (Monte Carlo Method)，以及基于概率分布的推荐算法 ( Probabilistic Recommendation Algorithm) 。基于机器学习的推荐算法则是利用机器学习技术来建模用户行为，构建预测模型，以做出最佳推荐。此类技术有K-means聚类，神经网络，决策树等。机器学习技术可以应用于协同过滤和概率推荐算法，帮助它们更准确的预测模型，提高推荐的准确度。最近的研究还把深度神经网络应用于推荐系统，将神经网络和推荐系统融合，也取得了一定的成功。总之，以上是Hadoop基础上对用户购买行为商品推荐系统的个性化推荐算法研究现状。内容基础推荐算法，基于概率推荐算法和基于机器学习推荐算法都可以应用于Hadoop架构下的用户购买行为商品推荐系统，未来开发者可以在此基础上继续完善和研究，逐步实现更加准确、实用的个性化推荐算法。
1.3研究内容
1、编写一个在线考试系统，本系统由五个子模块组成：登录模块、考试管理模块、成绩管理模块、考试控制模块、用户管理模块。
2、该系统主要包括身份验证、在线考试、信息编辑、查询、各类信息的维护和密码修改等功能。
3、该系统主要在互联网环境中被应用。

第二章相关技术
2.1 Hadoop简介
2.1.1HDFS
Hadoop分布式文件系统（Distributed File System，简称DFS）是Hadoop的存储组件，它专为海量数据而设计，能以统一高效的方式管理和存储多项档案和数据。HDFS以容错（High Fault Tolerance）为核心特征，针对几百至数千台机器构建文件系统，它实际上是一种企业数据仓库。HDFS以容错抗跌为目标，将文件分割成固定大小的、可恢复的数据块划分到所有的节点内，以保证数据的完整性。另外，HDFS的冗余机制可以使一定数量的数据复制到不同的节点上，以提高存储系统的容错性。

图2.1 HDFS
2.1.2 MapReduce
MapReduce：分布式计算框架（MapReduce）与HDFS完美结合，可以从硬件危机中流传出，能够支持对存储在HDFS中的海量数据进行计算，支持从数据文件元数据（比如文件类型，文件权限等）到实际结果的全部功能。MapReduce工作的核心是把大的计算任务分割成一组可以独立处理的小任务，把需要存储的数据预处理成Key-Value对的形式，而分布式计算的基本单元是Mapper和Reducer，Mapper的作用是根据输入的数据来生成中间结果，而Reducer的作用是汇总Mapper输出的中间结果并输出计算结果。

图2.2 MapReduce
2.2 Mahout简介
Apache Mahout是一种基于Apache Hadoop的开源机器学习和数据挖掘系统。它允许开发人员轻松实现高性能的机器学习和数据挖掘算法，诸如数据挖掘和准确性、聚类分析、支持向量机、决策树、协同过滤和感知器等。Mahout可以帮助开发人员从数十TB或更大的数据集中生成精确的模型，从而实现更智能的决策。该系统非常容易使用，而且使用了Apache Hadoop，因此它可以对大型数据集进行处理。Mahout还支持Apache Spark，Java和scala风格，这使开发人员可以在许多Hadoop分布式环境中快速开发和部署分析应用程序。

图2.3 Apache Mahout
2.3 Hive简介
Hive是一个基于Hadoop的分布式数据仓库系统，并且可以以HQL（类似SQL），MapReduce和UDF（用户定义函数）来进行灵活的数据分析和查询。Hive提供高效和简单的方式，方便快速开发大数据处理程序。Hive主要针对结构化数据查询和分析，可以和文件系统、HBase、HDFS和Amazon S3等其他系统进行兼容性的集成。Hive是由Facebook开发的一款开源数据仓库软件，其出现是巨大的分布式数据集之上分析、查询处理需求的应答。它利用基于SQL的查询语言（HiveQL）形式来进行数据分析、查询处理，采用mapreduce技术实现数据的分析，在帮助熟悉SQL用户对分布式大规模数据集进行分析和查询处理的同时，也帮助熟悉MapReduce技术的用户通过HiveQL实现代码逻辑。Hive具有经过多年实践考验和稳定开发的优势，它采用客户端/服务器式的架构模式，其客户端由终端用户、应用程序等组成，所有客户端能够通过网络接入Hive服务端，以实现对Hadoop、HDFS以及其它存储集群的访问，并对数据进行查询及处理。

图2.4 Hive原理

Hive提供的功能主要有：
（1）支持HiveQL的查询调度和优化
Hive支持SQL-like的查询语言（HiveQL），能够有效的实现查询调度和优化，这种优化能够让用户很容易地将简单的SQL语句换成复杂的MapReduce程序，从而使得原本复杂的数据分析问题变得更加容易解决。
（2）数据的抽取、转换、加载（ETL）
通过Hive的查询语言可以方便的完成数据的抽取、转换和加载（ETL）的操作，使得在数据挖掘过程中的数据抽取更加容易，从而大量提高数据分析的效率。
（3）支持各种MapReduce框架
Hive对比传统的数据库系统，它最大的优势是支持如Hadoop、Strom及Spark一类各种MapReduce框架，从而让用户更容易地实现无论是建模还是仿真等经典应用。
（4）支持UDF（用户定义函数）开发
Hive支持用户定义函数（UDF）的开发，允许用户定义自己的函数语言以改变Hive内置函数或对数据集进行操作和控制，从而满足用户更精细化的数据分析和查询处理需求。
总体来说，Hive能够有效的支持用户在巨大的分布式数据集上进行查询处理和分析，大大提高用户进行数据挖掘和应用开发的效率，是当前企业级大数据分析等应用的重要载体。

2.4 HBase简介

Apache HBase是一个开源的分布式NoSQL数据库，基于Apache Hadoop分布式文件系统（HDFS）而构建。它支持非常大规模数据的高可扩展性，常用于存储非结构化和半结构化数据。HBase可以提供低延迟读取和写入操作，是企业应用程序可靠的企业级数据库。使用Hadoop实现可靠性和容错保护，并提供一致性读取和写入操作。HBase可以有效地处理高级别的流量，因而支持大量实时读写操作，使其成为一个非常有用的数据库工具。

图2.5 HBase架构

2.5 Hadoop生态系统

Hadoop生态系统是一个开源的框架，使用Hadoop来运行大型数据集的分布式应用。它由Hadoop分布式文件系统（HDFS），MapReduce框架，YARN（Yet Another Resource Negotiator）调度和管理系统以及其他核心组件组成，包括两个可插入的编程模型：流和非流，及其相关的生态系统。Hadoop生态系统是用于有意义的分析海量数据的业界标准解决方案。

图2.6 Hadoop生态系统
第三章基于用户特征的推荐算法
3.1用户特征分析
3.1.1本文所用的用户特征
用户特征分析：

性别：男性、女性、不详等；
年龄：婴儿、少年、青年、中年、老年等；
职业：学生、上班族、自由职业者、企业主等；
收入水平：低收入、中收入、高收入等；
消费习惯：偏好高档商品、实惠商品、精品商品等；
上网习惯：普及网民、网络狂人等；
购买行为：情感型消费、用心消费等；
品牌及渠道偏好：品牌选择、电子商务、实体店购物等；
折扣：较高折扣率、均衡折扣率、低折扣率等；
购买渠道：品牌官网、淘宝网、商场等。
3.1.2用户偏好特征数据的获取
基于用户属性信息收集，如用户个人信息、浏览行为（用户访问哪个网站，以及访问该网站多久）、购买行为（用户购买哪些商品，购买多少）、支付方式等信息。
基于社交信息收集，如用户的朋友、参加的社交活动、发布的帖子，可以通过社交网站爬取用户的数据。
基于用户行为信息收集，如用户使用APP的频度和时长、按键点击行为、单机游戏行为等信息，可以通过APP爬取用户的偏好数据。
基于用户主观反馈数据收集，可以使用主题讨论、问卷调查等多种方式来收集用户的反馈信息。
经过数据清洗，我们得到的日志记录集合可以被描述为：

其中，Record是原始日志的一个子集并且按时间先后顺序排序，即按照Timestamp从小到大排序。sourcelP表示请求用户的IP地址。ADSL表示被Hash后的用户的ADSL账号。
所获得的用户偏好特征数据可以描述为:

其中，为用户的唯一标不即式中的。
其中：
userlD为用户的唯一标示ID，即式的ADSL；
Timestamp为用户访问某个网页的时间戳。
3.1.3用户偏好特征分析

商品的类别特征：对用户购买行为的商品，根据类别属性对偏好特征进行分析，如价格、规格、颜色等；
商品的地理位置特征：用户购买喜欢商品的地理位置；
购买频次：分析用户购买不同类别商品的购买频次及程度；
支付方式：统计用户使用不同支付方式购买商品，如信用卡、现金等；
优惠券使用情况：对用户使用优惠券进行分析，了解用户的品牌偏好；
活动营销报告：分析特定营销活动对用户购买行为的影响；
社交行为：分析用户的社交行为，如分享商品信息、转发朋友圈等信息；
上网时长：根据用户的上网时长分析用户对购买行为的更频繁使用或说明兴趣；
浏览、搜索行为：分析用户在搜索引擎及网络商城等平台的搜索及浏览行为及其关联性。
经过分词后，用户的偏好特征数据可以表示为:

其中：
userlD和Timestamp与前一节提到的相同；
Keyword表示用户的搜索关键字经过分词后的结果。
关注用户搜索关键字中的名词，本文最终得到的用户偏好特征可以表示为：

其中：
userID表示用户的唯一标示ID；
feature表示用户的偏好特征；

3.2 基于用户特征的推荐算法
3.2.1算法思想

基于用户特征的推荐算法思想是通过分析用户行为过程中向用户推荐的有价值的内容和服务。主要使用用户的行为数据，采用机器学习算法来学习用户的兴趣和喜好，以识别用个性偏好，然后结合用户行为数据，为用户推荐多样化的有价值内容和服务。可以采用主动学习算法、协同过滤和域模型等方式综合分析用户特征，为用户提供针对性的有价值的内容和服务。基于用户特征的推荐算法将首先收集用户的特征，例如年龄、性别、职业等，同时也包括用户购买行为信息，例如购买商品的种类、件数、频次等。用户特征收集完成后，系统将基于历史数据海量特征，采用Hadoop的分布式计算能力，对特征进行有效的提取；然后根据提取的特征，采用机器学习技术为用户进行模型学习；最后根据模型学习结果，为用户推荐相关商品。

图3.1 用户特征的推荐算法
3.2.2算法描述
基于用户特征的推荐算法是基于Hadoop的用户购买行为商品推荐系统中一种常用的推荐算法。它通过收集用户的历史购买行为表现出一定的偏好，从而给当前用户推荐符合这一偏好的商品。首先，收集用户的历史购买行为，利用Hadoop的分布式存储技术进行数据处理，从而获得用户的偏好特征；然后，基于用户特征，对商品进行分类，对每个类别的商品进行排序，为当前用户推荐偏好最高的商品；最后，使用Hadoop进行数据聚类，分析当前用户的偏好，根据聚类结果，重新计算商品的推荐得分，从而最终给当前用户推荐符合其偏好的商品。

图3.2 基于用户特征的推荐算法描述
3.2.3算法的优点
1、根据传统的以属性表为主的数据模型处理数据更快，可以实现实时的用户推荐。
2、基于用户的评价，能够在真实的时间内更加准确地分析用户的个性特征。
3、可以更细心地设计用户的推荐内容，以便于减少用户购买动机的失误率。
4、可以更有效的使用传统属性表处理模型来建立基于具有多样性的用户特征表进行模型处理。
5、基于用户特性收集用户行为数据，用于推荐结果优化，使结果更加精准。
3.3实验与分析
3.3.1实验环境和数据

实验环境：
1、计算环境：使用Hadoop集群，包括一台主节点和若干工作节点，每个节点上配置4TB的存储。
2、软件资源：安装最新版本的Hadoop，以及用于算法实现的脚本程序。
3、数据资源：从用户购买记录以及影响行为的外部因素中收集需要的用户特征数据，并保存在Hadoop上。
4、性能指标：以算法的准确率以及建模时间为性能指标，进行推荐系统的评估。
实验数据：

用户基本信息：用户ID、居住地、购买次数、性别、年龄等。
购买记录：时间、地点、金额、商品类别、商品详情等。
浏览记录：用户在不同商家的商品浏览行为。
用户评价：用户对商品的评价、推荐指数等。
交易数据：用户的交易记录，例如支付时间、支付方式等。
社交数据：用户在社交媒体上的活动记录及互动行为。
7.用户搜索记录：用户在搜索引擎上的搜索行为。
本文采用了三个大小不同的数据集来测试同一算法两种不同实现的算法性能:来自1000个用户对1700部电影的100,000条评分信息(rating1)，来自6000个用户对4000部电影的1,000,000条评分信息,(rating2)，来自72000个用户对10000部电影的10,000,000条评分信息(rating3 )。其中每个用户至少对20部电影打过分。
3.3.2实验结果与分析

实验结果：

图3.3 算法性能比较结果
从图3.3可以看出，利用Hadoop集群可以提高算法的效率，即加速比明显减小，尤其是当数据集较大刚一(如rating3 )、数据集较小}I, I- .草机版本的基于项目的协同过滤算法效率较高;4l是随数据量的增加，用MapRednce实现的协同过滤算法的效率越来越优的单机版本的算法。
实验分析：
1、基于内容的推荐（基于物品特征）：引入机器学习算法，使用支持向量机（SVM）、聚类算法、文本挖掘算法等对用户购买行为商品信息进行特征分析，比如用户购买类别、价格、时间等，然后构建用户特征模型，构建用户推荐模型并根据用户的购买特征推荐相似商品，这些特征的推荐准确度高，但可能忽略用户情感特征等
2、基于用户行为的推荐：对用户购买行为商品信息进行初步分析，得出用户购买行为特征，考察用户添加购物车、浏览、购买等行为建立推荐模型，并将用户购买行为分析结果与基于内容的用户特征模型结合，根据用户的行为特征与商品的内容特征定义服务模型，构建用户特定推荐模型以提高准确度。
3、基于用户信息的推荐：通过Hadoop统计和分析用户的消费习惯、收入水平等信息，构建用户扩展特征模型，基于用户消费能力、情感偏好、文化信息等个人信息提供更个性化、定制化的商品推荐服务，构建完整的用户特征模型。
4、基于协同过滤的推荐：利用Hadoop系统对用户购买行为商品进行全面分析，考察用户购买行为特征与基于内容的、基于行为的和基于用户特征的推荐模型，得出用户购买行为的相似性，构建协同过滤模型，根据用户的购买经验推荐相似商品，分析用户购买行为以提高推荐准确度。
5、实验分析：实验中采用真实用户购买行为数据进行测试，将不同算法系统安装在Hadoop平台上，并根据实验分析结果进行评估，评估指标主要有：准确率、召回率和覆盖率，以及F1值。通过实验，比较各种推荐算法的准确率以及性能，得出基于用户特征的购物推荐算法的最佳方案。
上述结果表明，当数据集很大时，用实现的基于项目的协同过滤的算法性能更好。

第四章推荐模型及实验结果分析
4.1曝光物品筛选流程
基于推荐模型的曝光物品筛选流程主要包括预处理、特征提取、模型训练、推荐效果检验几个步骤。

预处理：将用户产生的历史行为数据和商品特征等相关数据进行收集并清洗，然后将它们存储到Hadoop系统中。
特征提取：从用户行为数据以及商品特征中提取相关特征，比如用户的偏好、商品价格、商品类别等，将这些特征作为模型训练的输入。
模型训练：基于提取到的特征运用基于机器学习的模型（比如协同过滤算法，神经网络算法等）训练，也可以根据实际需要自行开发推荐算法，最终将模型部署到Hadoop系统中。
推荐效果检验：将模型部署到系统中后，需要使用推荐效果检验来评估模型的性能，检验模型的准确率，以及减少曝光物品时产生的犯错率，以提高推荐系统对新用户的把握精度。这里可以使用A/B测试来比较传统推荐算法和模型预测推荐结果的区别，最终得出最优的曝光物品筛选结果。

4.2基于DNN的Word2Vec推荐流程
下面是基于DNN的Word2Vec推荐流程：
1.数据预处理：整理出用户的购买数据，如购买商品的类别、价格、时间等，且要把用户购买的物品分列出来，以准备后续的Word2Vec模型训练。
2.词向量模型训练：使用Hadoop和DNN（深度神经网络）构建Word2Vec模型，利用用户购买数据训练词向量模型，以表达每个物品的特征。
3.用户特征分析：从购买数据中分析出用户的特征，以获取每位用户的特征向量。
4.物品相似度计算：利用Word2Vec模型计算用户购买的物品之间的相似度。
5.推荐结果输出：通过Word2Vec模型分析出的物品相似度，结合用户的特征向量，最终得到推荐结果输出给用户。

图4.1 word2vec实践
4.3实验结果分析
4.3.1实验硬件环境与数据
实验硬件环境：
1、中央处理器：四核心CPU，或者更高；
2、主存储器：至少4GB；
3、显卡：支持CUDA计算框架；
4、网络存储：至少2TB；
5、操作系统：64位Windows或者Linux；
6、编程语言：Python；
7、数据库：MySQL、PostgreSQL或者Redis；
8、深度学习框架：TensorFlow、Pytorch或者Caffe等；
9、调试工具：Visual Studio等;
10、云计算：如AWS、阿里云等。
4.3.2实验评价指标
经过N次独立比较后，如果推荐物品中有N1次具有更高推荐值，而N2次其推荐值相同，则所有用户的AUC平均值定义为：

在数学上，对于所有用户，Precision的平均值定义为:

其中:
di(L)是推荐给用户的物品与测试集中与用户交互物品的交集.
Recall平均值定义为:

在这里，我们使用推荐对象的平均人气来量化新颖性，其定义为

其中Koα是用户i的推荐列表时中物品α的度，较低的N值表示较高的新颖性。
4.3.3实验结果及分析
本文对三个不同的数据集分别用LW V更新了三种基础算法，每种算法随机抽取了100个用户并由原推荐算法得到长度为50推荐列表，LWV更新过的推荐算法分别给每个用户推荐了50个物品的推荐列表。

图4.2 散点图对比试验分析
从图4.2中可以看出红色部分明显多于蓝色部分。这也说明，LWV确实能通过标签在向量空间中相似性来提高推荐算法的准确性，更值得一提的是，从图5-7中可以观察到本算法推荐的物品对度并没有强烈的偏好，这在实际应用中是一个显著的优势。

4.4本章小结

本章介绍了基于Hadoop的用户购买行为商品推荐系统，应用了多种推荐模型来推荐商品给用户，评估了各种推荐系统以及推荐精度。实验结果表明，基于Hadoop的用户购买行为推荐系统和传统的推荐系统相比，具有更高的准确率，更优的性能和更稳定的推荐效果。总之，通过提高推荐精度，Hadoop技术提高了数据分析和推荐结果可靠性。此外，本研究还强调了改进推荐系统的关键，其包括使用最新领域的大数据技术，如集群计算，机器学习等。