Wzideng
记住一件事:
越努力越进步越自信
越懒惰越迷茫越焦虑越自卑。
业精于勤荒于嬉,行成于思毁于随。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
各种数学公式的含义????
RMSE代表均方根误差(Root Mean Square Error),是一种常用于评估预测模型性能的指标。它衡量了观测值与预测值之间的差异程度。数学公式表示如下:RMSE的值越小,表示模型预测的准确度越高,因为它表示了观测值与预测值之间的平均误差的大小。RMSE通常用于回归模型的评估,例如线性回归、决策树回归等。原创 2024-03-06 21:03:09 · 394 阅读 · 0 评论 -
DIEN模型 && GRU序列模型 && 什么是dropout参数? && 什么是“探索和利用”机制?
在深度学习中,Dropout是一种正则化技术,旨在防止神经网络过拟合训练数据。Dropout通过在训练过程中随机地丢弃(置零)神经网络中的一些神经元,强制网络在每个训练步骤中都变得不同。这有助于减少神经元之间的协作,使网络更具泛化能力。Dropout的参数通常表示丢弃概率,即在每个训练步骤中,每个神经元被丢弃的概率。这个概率通常是一个在0到1之间的值,例如,0.2表示在每个训练步骤中有20%的概率丢弃每个神经元。在实践中,Dropout通常应用在全连接层和卷积层的输出上。原创 2024-01-10 16:22:53 · 612 阅读 · 0 评论 -
FM因子分解机的原理、公式推导、Python实现和应用
具体来说,FM模型通过学习特征之间的交叉关系,能够捕捉到用户和物品之间的潜在关联,即使这些关联在训练数据中并不明显。这对于冷启动问题很有帮助,因为在冷启动时,我们可能只有有限的特征信息,而FM可以通过特征之间的交叉项来推断用户和物品之间的关系。在推荐系统中,FM模型可以用于召回阶段,即快速筛选出潜在的候选物品,以减小推荐候选集的规模,从而提高推荐效率。是指交叉特征的维度,通常也称为因子的数量。如果FM模型无法很好地适应数据,可以考虑尝试其他更复杂的模型,例如深度学习模型,以更好地捕捉数据中的复杂关系。原创 2023-12-15 17:19:18 · 250 阅读 · 0 评论 -
互联网大规模数据挖掘的目录
5.2.2 基于Map-Reduce的PageRank迭代计算 128。2.3.6 基于Map-Reduce的并、交和差运算 27。2.3.9 基于Map-Reduce的分组和聚合运算 28。2.3.11 基于单步Map-Reduce的矩阵乘法 29。2.3.7 基于Map-Reduce的自然连接运算 27。2.3.4 基于Map-Reduce的选择运算 26。2.3.5 基于Map-Reduce的投影运算 26。2.2.5 Map-Reduce的执行细节 21。原创 2023-12-06 10:48:11 · 496 阅读 · 0 评论 -
标签推荐Top-N列表优化算法_朱小兵
2.1 Top-N推荐列表重排序算法。原创 2023-10-31 19:57:47 · 190 阅读 · 0 评论 -
3 ALS算法的优化
将式(12)对原始评分矩阵进行优化,再代入 式(3)得到了优化后的ALS算法。第四步:当得到最小的RMSE或到达最大迭代 次数时停止迭代,得到ALS模型。最佳迭代次数和隐因子数代入训练,更新用户矩阵 和物品矩阵。入式(12)对R进行加权更新,得到新的评分矩阵R ′。第二步:通过实验得到的最优平衡因子(α,β)代。第三步:训练ALS模型,将最优参数实验得到的。第一步:读取数据集,初始化用户-物品评分。算法优化流程如图4所示。原创 2023-10-29 15:40:41 · 282 阅读 · 0 评论 -
基于ALS算法的推荐系统研究_徐雪东
即用户的兴趣没有考虑到随着时间的变化,而是说不管是什么时间的用户兴趣,权重占比都是一样的,并没有说用户兴趣会随着时间的流逝,而兴趣退却。原创 2023-10-29 15:31:02 · 165 阅读 · 0 评论 -
大数据平台下LDA-ALS智能推荐算法研究_陈丽芳
怎么获取数据集?改进的LDA-ASL算法原创 2023-10-29 14:54:30 · 100 阅读 · 0 评论 -
ALS算法在菜品智能推荐系统的应用
核心推荐模块的推荐算法是基于用户推荐模型(user_model)协同过滤的矩阵分解过滤算法 ALS。其算法原理可叙述为:ALS收集大数据样本的用户评分喜好信息,训 练推荐模型,基于该模型进行协同过滤。对于任意一个形如用户-商品-评分的评分数据 集合,ALS都会相应地建立一个用户-商品的m*n 的协同矩阵(m代表商品数量,n代表用户数量)。 该矩阵例如图1所示。原创 2023-10-29 14:46:02 · 246 阅读 · 0 评论 -
引入个性化标签的协同过滤推荐算法研究_邢瑜航
第3章 引入个性化标签的I-CF推荐算法3.2.2 相似性度量方法3.2.3 改进后的算法步骤与流程原创 2023-10-27 16:54:15 · 138 阅读 · 0 评论 -
基于标签的协同过滤推荐方法研究
[摘要]2.2标签相似度矩阵惩罚jaccard相关热度系数原创 2023-10-27 16:31:45 · 123 阅读 · 0 评论 -
基于标签的电影推荐算法研究_张萌
用户对一个标签的认可度可以使用二元关系来表示,这种关系只有“是”“否”两种结果,实际上难以准确地表达出用 户对物品的喜好程度。因此,我们可以用连续数值来表示用 户对物品的喜好程度,范围在0~1之间,便于对喜好程度进 行区分和排序。原创 2023-10-27 15:53:54 · 385 阅读 · 0 评论 -
基于LDA的隐式标签协同过滤推荐算法_文勇军
王全民等人[14]提出了一种交替奇异值分解算法(ASVD),即结合协同过滤和隐语义分析的混合推荐 算法。唐泽坤等人[15]融合聚类算法和协同过滤推荐 算法,取得了一定效果。高娜等人[16⁃19]将标签因子 和协同过滤推荐算法结合研究缓解了数据稀疏问题,但这种固定标签的形式主要依靠人工标记,扩展性不 强,主观因素多。原创 2023-10-27 15:10:50 · 173 阅读 · 0 评论 -
在数据挖掘中一种基于MapReduce型的Apriori算法研究_姜凯强
在数据挖掘中一种基于MapReduce型的Apriori算法研究_姜凯强在数据挖掘中一种基于MapReduce型的Apriori算法研究_姜凯强在数据挖掘中一种基于MapReduce型的Apriori算法研究_姜凯强原创 2023-10-26 15:43:45 · 277 阅读 · 0 评论 -
考虑对象关联关系的多样化商品推荐方法
摘要4基于商品间关联关系的推荐算法原创 2023-10-18 21:45:03 · 105 阅读 · 0 评论 -
基于关联规则的多样化推荐技术应用研究
最后选 取目标函数值为最大的假想结果集作为推荐结果集。整个算法流程如下图3.3所示。原创 2023-10-16 20:21:29 · 102 阅读 · 0 评论 -
多样化电影推荐系统的设计与实现
通过搞一个什么hash函数,来创建桶分类,进行类型分别。原创 2023-10-16 19:26:15 · 239 阅读 · 0 评论 -
Mining Association Rules between Sets of Items in Large Databases
常规Apriori算法的实现步骤。原创 2023-10-09 21:57:10 · 199 阅读 · 0 评论 -
基于Spark的K-means快速聚类算法的优化
摘要1 引言2 相关研究2.1 Spark计算框架2.2 K-means算法2.3 K-means++算法3 SMGK-means算法及在Spark上的并行化实现3.1 改进K-means算法措施(一共三种)3.2 肘部法则确定K值3.3 算法改进步骤3.4 基于Spark的SMGK-means算法的并行实现3.5 每个K值下SMGK-means算法时间复杂度分析4 实验及结果分析1)算法运行时间比较。2)准确率对比。3)加速比的对比。原创 2023-09-19 19:48:00 · 605 阅读 · 1 评论 -
阅读分享--重读Youtube深度学习推荐系统论文,字字珠玑,惊为神文
我们自底而上看这个网络,最底层的输入是用户观看过的video的embedding向量,以及搜索词的embedding向量。至于这个embedding向量是怎么生成的,作者的原话是这样的:受连续词袋语言模型的启发,我们为每个视频学习 x 定义词汇的高维嵌入,并将这些嵌入输入前馈神经网络所以作者是先用word2vec方法对video和search token做了embedding之后再作为输入的,这也是做embedding的“基本操作”,不用过多介绍;当然,除此之外另一种大家应该也比较熟悉,就是。原创 2023-09-11 15:05:44 · 149 阅读 · 0 评论 -
基于网络表示学习的 新闻推荐算法研究与系统实现
如Li等人[10]对协同过滤算法进行改进,考虑了新闻的特征词所属词性和所在位置对结果的影响,利用时间窗口动态监测用户兴趣偏好。由此得出的新闻内容相似度[11]解决了用户兴趣迁移过程中推 荐准确性率低的难题,也缓解了数据稀疏、可扩展性差的问题。该方法考虑了 不同属性对区分用户的贡献度,准确计算了用户间的属性相似度,有效提高了 数据采集结果的准确性。原创 2023-09-06 17:31:22 · 742 阅读 · 0 评论 -
2023年09月03日-----16:58
LR(Logistic Regression)和FM(Factorization Machines)都是机器学习中用于解决分类和回归问题的模型,但它们有不同的原理和应用场景。LR是一种广泛应用于二元分类问题的线性模型。它的主要思想是将输入特征的线性组合传递给一个logistic函数,以将输出映射到0到1之间的概率值。LR适用于具有线性关系的问题,它可以用于分类任务,例如垃圾邮件检测、客户流失预测等。LR的训练通常使用最大似然估计(Maximum Likelihood Estimation)方法。原创 2023-09-03 18:29:29 · 462 阅读 · 0 评论 -
基于Spark框架的新闻推荐系统的设计与实现
K最近邻(K-Nearest Neighbors,KNN)是一种用于分类和回归的机器学习算法。它是一种基于实例的学习方法,用于根据相似性度量对新样本进行分类或预测。KNN 算法的基本思想是,对于一个未知样本,它的类别(分类问题)或值(回归问题)可以由其最近邻的K个训练样本的类别或值来确定。选择一个正整数K,表示将用于确定未知样本类别或值的最近邻数量。定义一个距离度量方法,常见的度量包括欧氏距离、曼哈顿距离、闵可夫斯基距离等。这个度量用于计算样本之间的相似性。原创 2023-08-24 17:44:59 · 764 阅读 · 0 评论 -
微信记录---推荐系统---23/8/14 小总结
2013 年,百度率先在广告系统中应用了深度学习[3],随着在 2015 之后,阿里提出并应用了从MLR(Mixed Logistic Regression)到DIEN(Deep Interest Evolution Network)等一系列的深度学习模型“。国外的互联网巨头也不逞多让,从最早的 Google 的 Word2vecI5]到2015年YouTube的深度学习推荐系统],再到之后的Facebook、Ammazon、做软等等,原创 2023-08-14 20:41:48 · 1053 阅读 · 0 评论 -
ATRank: An Attention-Based User Behavior Modeling Framework for Recommendation
在自然语言处理中,注意力机制在机器翻译、文本摘要生成等任务中被广泛应用,能够帮助模型生成更准确、流畅的输出。总之,注意力机制是一种强大的技术,可以在处理序列数据的任务中提升模型的性能,使模型能够更有效地处理关联信息和长序列。原创 2023-08-14 17:17:52 · 227 阅读 · 0 评论 -
知识图谱推荐系统研究综述
DKN模型的优势在于它可以通过学习到的用户兴趣和物品特性之间的关系,进行更加精细的推荐,尤其是在涉及到丰富的领域知识时。然而,需要指出的是,DKN模型可能需要大量的训练数据和计算资源来进行训练,以便有效地捕捉复杂的用户行为模式和物品知识关系。该模型的核心思想是结合用户的行为序列和物品的知识信息来进行推荐。“DKN"代表的是"Deep Knowledge-Aware Network”,它是一种应用于推荐系统的深度学习模型,旨在通过结合用户的行为数据和领域知识来提高推荐的质量。原创 2023-08-08 16:03:40 · 360 阅读 · 0 评论 -
论文分享--On the Difficulty of Evaluating Baselines A Study on Recommender Systems
在不同领域和上下文中,基线(Baseline)是指在进行实验或评估时作为比较参照的标准或基准线。它用于比较其他方法、算法或模型的性能,以判断它们是否有效或优于基线。在机器学习和数据分析中,基线通常是指一个简单的模型或规则,用于对比更复杂的模型的性能。例如,对于一个分类任务,可以选择一个简单的基线模型,比如随机分类器或者多数类分类器(将所有样本都预测为出现频率最高的类别),然后将其他更复杂的分类器与之进行比较,看其是否能够明显优于基线模型。基线模型的作用在于提供一个简单和直观的参考点,帮助评估其他更复杂模型的原创 2023-08-08 15:01:30 · 180 阅读 · 0 评论 -
4.3 Hadoop发行版的选择/4.4 大数据产品与互联网产品结合/4.5 大数据应用--数据分析/4.6 数据分析案例
hadoop-2.6.0-cdh-5.7.0 和 Flume*****-cdh5.7.0 cdh版本一致 的各个组件配合是有不会有兼容性问题。8 月 18 号早晨发现 8 月 17 号的订单量没有恢复正常,运营人员开始尝试寻找原因。通过数据分析指标监控企业运营状态, 及时调整运营和产品策略,是大数据技术的关键价值之一。大数据平台(互联网企业)运行的绝大多数大数据计算都是关于数据分析的。运营人员发现从 8 月 15 日开始,网站的订单量连续四天明显下跌。运营数据的获取需要大数据平台的支持。原创 2023-07-03 21:07:17 · 590 阅读 · 0 评论 -
RDD 转换算子
➢ 函数签名➢ 函数说明将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换。❖ 小功能:从服务器日志数据 apache.log 中获取用户请求 URL 资源路径。原创 2023-06-30 22:51:42 · 418 阅读 · 0 评论 -
避免特征选择中的常见陷阱(Soundex、Mataphone)
Soundex是一种用于将英语单词转换为其发音相似的编码的算法。它主要用于在搜索和比较字符串时考虑单词的发音相似性。这样,通过Soundex算法,不同的单词可以映射到相同的编码,从而实现发音相似的字符串匹配。现在,您可以调用方法来对单词进行Soundex编码。在上述示例中,我们将单词"Hello"进行Soundex编码,得到的编码结果为"H400"。这个编码可以用于在搜索或比较字符串时考虑单词的发音相似性。需要注意的是,Soundex算法是一种近似的编码算法,它基于发音规则而不是实际的字母顺序。原创 2023-06-25 15:53:19 · 244 阅读 · 0 评论 -
2.04_基于矩阵分解的协同过滤推荐
刚才提到的Traditional SVD首先需要填充矩阵,然后再进行分解降维,同时存在计算复杂度高的问题,因为要分解成3个矩阵,所以后来提出了Funk SVD的方法,它不在将矩阵分解为3个矩阵,而是分解为2个用户-隐含特征,项目-隐含特征的矩阵,Funk SVD也被称为最原始的LFM模型。如果想运用SVD分解的话,有一个前提是要求矩阵是稠密的,即矩阵里的元素要非空,否则就不能运用SVD分解。显示反馈指的用户的评分这样的行为,隐式反馈指用户的浏览记录、购买记录、收听记录等。原创 2023-06-16 20:02:45 · 196 阅读 · 0 评论 -
2.3基于回归模型的协同过滤推荐
如果我们将评分看作是一个连续的值而不是离散的值,那么就可以借助线性回归思想来预测目标用户对某物品的评分。其中一种实现策略被称为Baseline(基准预测)。原创 2023-06-16 20:00:19 · 431 阅读 · 0 评论 -
02_基于K最近邻的协同过滤推荐
基于K最近邻的协同过滤推荐其实本质上就是MemoryBased CF,只不过在选取近邻的时候,加上K最近邻的限制。但由于我们的原始数据较少,这里我们的KNN方法的效果会比纯粹的MemoryBasedCF要差。这里我们直接根据MemoryBased CF的代码实现。原创 2023-06-16 17:05:23 · 108 阅读 · 0 评论 -
案例--算法实现:Item-Based CF 预测评分
利用原始评分矩阵、以及物品间两两相似度,预测指定用户对指定物品的评分。如果无法预测,则抛出异常。原创 2023-06-16 16:56:15 · 138 阅读 · 0 评论 -
案例--算法实现:User-Based CF 预测评分
【代码】案例--算法实现:User-Based CF 预测评分。原创 2023-06-16 16:55:43 · 145 阅读 · 0 评论 -
杰卡德相似度(Jaccard similarity)
杰卡德相似度(Jaccard Similarity)也称为杰卡德指数(Jaccard Index),由 Paul Jaccard 于 1901 年提出,用于度量两个集合数据的相似性。在图中,收集节点的邻居节点作为邻居集合,两个节点的邻居集合越相似,这两个节点就越相似。杰卡德相似度的取值范围 0 到 1;1 意味着两个集合完全一样,0 意味着两个集合没有任何共同元素。原创 2023-06-08 21:46:50 · 2620 阅读 · 0 评论