
机器学习
文章平均质量分 56
巴拉巴拉朵
这个作者很懒,什么都没留下…
展开
-
HitRecall的scala实现
HitRecall的scala实现topK推荐中常用评估指标就有HitRecall,这个指标的定义如下HR@K = NumbersOfHit@K / GT分母是所有测试集集合,分子是topK推荐中命中测试集的总和事先将用户向量和物料向量导出来,假设格式一致userid1||0.03388985991477966,-0.05629376694560051,-0.28580108284950256,-0.03301679715514183,-0.00348331220448017,0.23206464原创 2021-11-21 16:23:30 · 835 阅读 · 0 评论 -
ESMM多目标实践
ESMM多目标Python实践导入的包信息如下import tensorflow as tffrom tensorflow.python.framework import ops构建特征部分对变长型、数字型、字符型等特征,还有交叉特征构建索引,分别放到两个特征数组中,分别对应wide网络输入和deep网络输入def build_feature(): first_feature_columns = [] second_feature_columns = [] parms原创 2021-11-21 00:30:05 · 849 阅读 · 0 评论 -
scala做embedding的average操作
scala做embedding的average操作使用 breeze.linalg 来对embedding向量处理breeze.linalg 库可以对矩阵向量做很多操作,普通的加减乘除,点乘叉乘,都能支持import breeze.linalg.DenseVectorimport org.apache.spark.ml.linalg.{Vector, Vectors}import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}im原创 2020-08-23 12:04:52 · 426 阅读 · 0 评论 -
Spark的Word2Vec示例
Spark的Word2Vec示例这里演示Spark的ml包里面Word2Vec的训练与加载过程import org.apache.spark.ml.feature.{Word2Vec, Word2VecModel}import org.apache.spark.ml.linalg.Vectorimport org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}/** * 从句子训练得到Embedding */object Tex原创 2020-08-23 11:46:33 · 1238 阅读 · 0 评论 -
Notification Volume Control and Optimization System at Pinterest 小记
Notification Volume Control and Optimization System at Pinterest在最优化长期用户交互度的目标下,决定每个用户的推送量最优化推送量推送的内容相关是提高用户体验的基石,实际中还有很多需要考虑什么时候发送推送通知哪个渠道(e.g. 邮件、手机推送、桌面推送)发送推送通知以什么样的频率向用户发推送通知(这几点中这一条最重要)...原创 2019-10-09 11:54:40 · 631 阅读 · 0 评论 -
机器学习优化算法笔记
机器学习优化算笔记梯度下降在统计学习中最开始接触的优化算法是梯度下降,最先熟悉和能手动推导的也是梯度下降,这是从逻辑回归模型中学习到的,逻辑回归的目标函数采用了最大似然函数,优化这个目标函数使用了梯度下降,如果数据量比较小,可以扫描整个数据集,更新一次参数,因为目标函数是如函数,得到的解是全局最优解;如果数据集非常大,可以采用随机梯度下降法,随机选取一部分样本来来快速参数,这样会有一些震荡,会...原创 2019-04-22 15:30:23 · 197 阅读 · 0 评论 -
梯度的一些笔记
梯度的一些笔记导数、偏导数、方向导数、梯度的含义导数表示函数f(x)f(x)f(x)在该点的变化率。函数值在增量与在该点的自变量的增量的比值的极限存在的话,导数就存在,反应的是变化率的大小,导数的绝对值越大,说明变化幅度越大,变化越剧烈。如果是一元函数,表示的是函数在某一点的切线的斜率,斜率绝对值越大,表示越陡峭,即变化的幅度越大。如果是时间 ttt 是自变量,位移 s(t)s(t)s(t...原创 2019-04-22 13:27:42 · 356 阅读 · 1 评论 -
信息熵笔记
信息熵的笔记信息熵的定义热力学中的热熵是表示分子状态混乱程度的物理量。数学家香农用信息熵的概念来描述信源的不确定度,信息熵是来度量信息的不确定性的,熵越大,表示不确定性越高;熵越小,表示不确定性越低。不确定性是概率 ppp 的减函数,独立的两个信息的熵是可以相加的,对数函数同时满足这两个条件,设事件 AAA 有取值 a1a_1a1,a2a_2a2…aNa_NaN,对应的概率为 p1p_1...原创 2019-04-09 17:36:07 · 586 阅读 · 0 评论 -
Factorization Machine的一些总结
Factorization Machine的一些小结FMFM使用了矩阵分解的思想学习组合特征的系数二阶FM可以通过公式化简将时间复杂度降低到O(kn),三阶及以上无法化简,时间复杂度较高FM的分解中factor因子一般取的比较小,一方面可以减少需要学习的参数,另外一方面可以提高泛化能力libFM是比较早出现的算法包,后面出现了Spark实现的FMFM学习算法SGD算法可以求解分...原创 2019-04-10 21:31:21 · 1517 阅读 · 0 评论 -
从逻辑回归实例入手简单介绍Spark机器学习模块
Spark 机器学习——逻辑回归Spark机器学习的基础知识有一篇文章写的很浅显易懂,附上文章地址 spark-ML基础这里用Spark的逻辑回归进行分类的实例,分类数据集来自UGI 葡萄酒数据集类别样本数量class 159class 271class 348该数据集有13个属性,没有缺失值,可以直接看到数据 http://archive.ics...原创 2019-03-31 11:33:35 · 413 阅读 · 0 评论 -
Spark任务一直停在某个Stage不动问题
解决Spark莫名卡住问题有时候Spark任务莫名会在某个Stage卡住,然后一直停在那里,如果任务重新跑的话又是没有问题的,在实际项目中如果这样的任务出现了,需要仔细分析Spark的log,这样的情况一般是数据不均衡导致的某个节点任务量偏大,而这个节点分配不到太多内存(其他还有很多任务都在这里运行)导致任务卡顿。有几个参数非常有效,主要是Spark的任务推测执行参数,任务推测执行默认是不开启的...原创 2019-03-24 18:36:11 · 13231 阅读 · 0 评论 -
Torch学习笔记
Torch笔记(三) 一元线性回归 torch中神经网络包官网https://github.com/torch/nn 先简单说说最简单的线性回归,也就是一元线性回归,即只有一个自变量,一个因变量,用式子表示就是Y=aX+b。X表示输入,Y是输出。就是在已知输入X的情况下拟合输出Y。 现在给出一个实例,咱们从例子中玩Torch。这里有一个家庭消费支出(Y)和可支原创 2016-08-07 01:42:56 · 2531 阅读 · 0 评论 -
Torch学习笔记
Torch笔记(一) Torch是Facebook开源的机器学习框架,与当今火热的TensorFlow和Caffe一样,是深度学习、机器学习的利器,用好它们,能很快的在数据集上验证自己的想法,只要熟练使用,一般的机器学习模型想怎么玩就怎么玩. Torch是基于Lua语言的,因此需要熟悉Lua语言,Lua在游戏脚本中用的非常多,和一般的脚本语言难度差不多,作为脚本语言,用起来方便、顺手就原创 2016-08-06 20:04:38 · 1536 阅读 · 0 评论 -
Torch学习笔记
Torch笔记 (四)DNN训练方法 神经网络训练在torch中是比较固定的模式,在torch中都比较简单,torch就好像一个计算机硬件供应商,已经生产好了CPU、显卡、内存条、硬盘等等核心部件,咱们使用torch就是在组装电脑,按照不同的需求组装不同的电脑,不用自己造轮子,组装起来就快的多了,降低使用门槛,让大家都来玩玩现在红的发紫的深度学习。 言归正传,训练方法常用的有两种,一种是使原创 2016-08-14 23:50:36 · 3183 阅读 · 0 评论 -
线性回归与梯度下降算法
原创作者网址:http://www.cnblogs.com/eczhou/p/3951861.html线性回归与梯度下降算法作者:上品物语知识点:线性回归概念梯度下降算法 l 批量梯度下降算法 l 随机梯度下降算法 l 算法收敛判断方法1.1 线性回归在统计学中,线性回归(L转载 2016-03-08 20:57:50 · 945 阅读 · 0 评论