
推荐系统
文章平均质量分 56
西安人走哪都要吃泡馍
这个作者很懒,什么都没留下…
展开
-
Embedding中word2vec原理和细节
关于word2vec原理和结构总结为2+2+1的关系。2—>两种模式,COBW和Skip-gramCOBW:已知中间词向量求周围词向量COBW的运行原理流程:Skip-gram:已知周围词求中间词向量2—>两种优化方案,层次softMax和负采样由上图两个模型的流程可知,最后都是softmax求出词的概率最大时的参数,所以在实际情况下V的维数时很高的,所以在计算时复杂度很高,要求softmax要输出V个概率。层次softmax:原理是把softmax多分类换为多个sigm原创 2021-02-27 12:49:31 · 368 阅读 · 0 评论 -
推荐系统中评估指标的精准率,准确率,召回率,P-R曲线,ROC曲线,AUC曲线
准确率:指分类正确的总样本个数的比例精准率:指分类正确的正样本个数占分类器判定为正样本的样本个数的比例召回率:分类正确的正样本个数占真正的正样本个数的比例为了综合评估一个排序模型的好坏,不仅要看模型在不同TopN下的精准率和召回率,而且最好的绘制出模型的P-R曲线。P-R曲线的横轴为召回率,纵轴为精准率。在用P-R曲线评估模型时,只用某个点对应的精准率和召回率时不能全面的衡量模型的性能,只有通过P-R曲线的整体表现,才能够对模型进行更为全面的评估均方根误差:一般情况下,RMES能够很好的反映原创 2021-02-20 11:24:16 · 969 阅读 · 0 评论 -
推荐系统在深度学习方向的模型演变(DeepCrossing,NeuraCF,PNN,wide&Deep,DeepFM,Deep&Cross,NFM,DIN,DIEN,DRN)---未完待续
1、改变神经网络复杂程度:Deep Crossing(深度特征交叉)Deep&Crossing模型--------源于2014年-------微软模型在其内部网络中解决的问题:1、离散型特征编码过于稀疏,不利于网络的训练2、特征自动交叉组合的问题3、输出层中达到问题设定的优化目标模型的网络结构图:模型结构共计四层,**Embedding层:**作用使其将稀疏的类别特征转换为稠密的Embedding向量Stacking层:作用是把不同的Embedding特征和数值型特征拼接在原创 2021-02-19 15:50:25 · 705 阅读 · 0 评论 -
Embedding篇--word2vec,Item2vec,Graph Embedding,DeepWalk,Node2vec,EGES详解纯手稿
原创 2021-02-15 19:40:13 · 463 阅读 · 0 评论 -
深度学习推荐系统-----AutoRec单隐层神经网络推荐模型--未完待续
单隐层神经网络模型是2015年又澳大利亚国立大学提出来的AutoRec,它是将自编码器的思想和协同过滤结合,提出了一种单隐层神经网络推荐模型,因其简约的网络结构和清晰易懂的模型原理,AutiRec非常适合作为深入学习推荐模型的入门模型来学习AutoRec模型是一个标准版的自编码器,它的基本原理是利用协同过滤重的共现矩阵,完成物品向量或者用户向量的自编码,在利用自编码的结果得到用户对物品的预估评分,进而进行推荐排序什么是自编码器?????自编码器是指能够完成数据“自编码”的模型,无论是图像,音频,还是文原创 2021-02-02 22:45:50 · 231 阅读 · 0 评论 -
推荐系统----协同过滤,矩阵分解,逻辑回归,FM,FMM,GBDT+LR,LS-PLM之间的优缺点
协同过滤:源于1992年直到2003年才被Amazon发表论文使用了基本原理:根据用户的行为历史生成用户-物品共现矩阵,利用用户相似性和物品相似性进行推荐特点:原理简单,直接,应用广泛局限性:泛化能力差,处理稀疏矩阵的能力差,推荐结果的头部效应较为明显矩阵分解:源于2006年Netflix举办推荐算法竞赛使推出的基本原理:将协同过滤算法中的共现矩阵分解为用户矩阵和物品矩阵,利用用户因向量和物品因向量的内积进行排序并推荐特点:相较协同过滤,泛化能力有所加强,对稀疏矩原创 2021-02-01 18:34:22 · 1043 阅读 · 0 评论 -
推荐系统--------------决策树算法(ID3与C4.5)
决策树算法-属于分类算法是利用训练样本集获得分类函数即分类模型(分类器)。从而实际讲数据集中的样本划分倒各个类中。分类模型通过学习训练样本中的属性集与类别之间的潜在关系,并一次为依据对新样本属于哪一类进行预测决策树通过把数据样本分配倒某个叶子节点确定数据集中样本所属的分类中,决策树有决策点,分支和叶子节点组成决策树节点表示在样本的一个属性上进行的划分分支表示对于决策节点进行划分的输出叶节点代表经过分支到达的类从决策树根节点出发,自顶向下移动,在每个决策节点都会进行次划分,通过划分的结果讲样原创 2020-12-28 21:10:23 · 773 阅读 · 0 评论 -
推荐系统-------------隐语义模型(LFM)之梯度下降代码实现
import numpy as npimport pandas as pd# 准备数据# 评分矩阵R = np.array([[4, 0, 2, 0, 1], [0, 2, 3, 0, 0], [1, 0, 2, 4, 0], [5, 0, 0, 3, 1], [0, 0, 1, 5, 1], [0, 3, 2, 4, 1]])print(len(R))# 算法实现"""@输入参数:R: M*N的评分矩阵K: 隐特征向量维度max_iter:最大迭代次数alpha:步长lamd原创 2020-12-27 16:35:57 · 198 阅读 · 0 评论 -
推荐系统--------------交替最小二乘法(ALS)
引入:LFM(隐语义模型):协同过滤算法非常依赖于历史数据,而一般的推荐系统中,偏好数据又往往使稀疏的,这就需要对原始数据做降维处理,分解之后的矩阵,就代表了用户和物品的隐藏特征。LFM降维方法就用 ----> 矩阵因子分解矩阵因子分解的问题已经转化成一个标准的优化问题,需要求解P,Q使目标损失函数取最小值最小化过程的求解,一般采取随机梯度下降算法或者交替最小二乘法来实现说白了就是求矩阵因子分解的最优解,我们先用交替最小二乘法(ALS)求解。正文:ALS的思想是,由于两个矩阵P和Q都是原创 2020-12-25 21:02:19 · 1389 阅读 · 0 评论 -
推荐系统------------矩阵因子分解
引入:假设用户物品评分矩阵位R,现在有m个用户,n个物品我们想要发现K个引雷,我们的任务就是找到两个矩阵P和Q,使这两个矩阵的乘积近似等于R,即将用户物品评分矩阵R分解称为两个低维矩阵相乘:进一步理解LFM我们可以认为,用户之所以给电影打出这样的分数,是由内在原因的,我们可以挖掘出影响用户打分的隐藏因素,进而根据未评分电影与这些隐藏因素的关联度,决定此未评分电影的预测评分。应该有一些隐藏的因素,影响用户的打分,比如电影,演员,题材,年代,,,甚至不一定是人,直接可以理解的隐藏因子。找到隐原创 2020-12-24 19:42:12 · 683 阅读 · 0 评论 -
推荐系统------------隐语义模型(LFM)
引入基于模型的协同过滤思想基本思想:用户具有一定的特征,决定着他的偏好选择物品具有一定的特征,影响着用户需是否选择它用户之所以选择某一个商品,是因为用户特征与物品特征相互匹配基于这种思想,模型的建立相当于从行为数据中提取特征,给用户和物品同时打上标签,这和基于人口统计学的用户标签,基于内容方法的物品标签本质是一样的,都是特征的提取和匹配有显性特征时(比如用户标签,物品分类标签)我们可以直接匹配做出推荐,没有时,可以根据已有的偏好数据贸区发掘出隐藏的特征,这需要用到隐语以模型(LFM)训练模型原创 2020-12-24 11:19:25 · 597 阅读 · 0 评论 -
推荐系统--------------TF-IDFpython代码实现
import numpy as npimport pandas as pdstr01 = "the hello my union left spark flink"str02 = "hive hadoop spark my keep my hbase the is datatabase table partition"str_list01 = str01.split(" ")str_list02 = str02.split(" ")# 构建词库wordset = set(str_list0原创 2020-12-24 10:44:56 · 230 阅读 · 0 评论 -
推荐系统--------------TF-IDF
TF-IDF:词频-逆文档频率是一种用于资讯检索与文本挖掘的常用加权技术TF-IDF是一种统计方法,用以评估一个字词对于一个文件或者一个语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但是同时会随着它在语料库中出现的频率成反比下降。TF-IDF的主要思想是:如果某个词或者短语在一片文章中出现的TF高,并且在其他文章中很少出现,则认为此词语或者短语具有很好的类别区分能力,适合用来分类TF-IDF加权的各种形式长被搜索引擎应用,作为文件与用户查询之间相关程度的度量或者评原创 2020-12-24 02:24:53 · 371 阅读 · 0 评论 -
推荐系统-------------基于UGC的推荐
用户用标签描述对物品的看法,所以用户生成标签(UGC)是联系用户和物品的纽带,也是反应用户兴趣的重要数据源。一个用户标签行为的数据集一般有一个三元组(用户,物品,标签)的集合组成,其中一条记录(a,b,c)表示用户a给物品b打上了标签c一个简单的算法:统计每隔用户最常用的标签对于每隔标签,统计被打过这个标签次数最多的物品对于一个用户,首先找到他常用的标签,然后找到具有这些标签的最热门的物品,推荐给他所以用户对物品的兴趣公式其中,n a.c是用户a打了多少c标签,n c.b是物品b被打过标签c原创 2020-12-24 00:40:54 · 696 阅读 · 0 评论 -
推荐系统---------------特征工程处理方法
特征:数据中抽取出来的结果预测有用的信息特征的个数就是数据的观测维度。特征工程时使用专业北京知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。特征工程一般暴扣特征清洗(采样,清洗一场样本),特征处理和特征选择特征按照不同的数据类型分类,有不同的特征处理方法----数值型用连续数值表示当前维度特征,通常会对数值型特征进行数学上的处理,主要的做法是归一化和离散化归一化也称幅度调整特征与特征之间应该是平等的,区别应该体现在特征内部,例如:房屋价格和房屋面积的幅度是不同的,价格一原创 2020-12-24 00:13:02 · 181 阅读 · 0 评论