算法
我的灯还亮着
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
阿里DIN源码之如何建模用户序列(1):base方案
阿里这篇文章,说白了就是如何将用户的行为序列抽象出一个特征,这里我称之为行为emb,往常对用户的一组行为序列,都是平等对待,同权pooling,或者加时间衰减。这篇文章好就好在他深刻的分析了用户行为意图,即用户的每个行为和候选商品的相关性是不同的,以此为契机,利用一个计算相关性的模块(后来也叫attention),对序列行为加权pooling,得到想要的embedding。网上对DIN源码分享...原创 2020-03-05 21:33:43 · 1357 阅读 · 0 评论 -
水塘抽样的原理及python实现
同步更新于知乎:https://zhuanlan.zhihu.com/p/107889958最近在做整理,偶尔看到公众号的一篇关于随机抽样的分享,这个算法面试中经常会问到,特此总结一下。网上关于这块解释并不清晰,主要参考如下,个人感觉写的比他更通俗易懂,哈哈。https://zhuanlan.zhihu.com/p/107793995解决什么问题主要用于解决大数据流中的随机抽样问题,即:...原创 2020-02-19 21:27:26 · 754 阅读 · 0 评论 -
从入门DeepWalk到实践Node2vec
最近碎片时间看七个世界,一个星球,不亏是9.9分的纪录片啊,敬畏自然,敬畏生命。真想以后有时间多出去走走,不过还是要有眼前的苟且…… (写于凌晨00:26,哭)如果图挂了,请移步知乎:https://zhuanlan.zhihu.com/p/90783845参考博客和文献https://zhuanlan.zhihu.com/p/64756917https://zhuanlan.zhihu.com...原创 2019-11-08 00:42:24 · 1563 阅读 · 0 评论 -
论文阅读—阿里Graph Embedding的大规模应用
本人知乎地址:https://zhuanlan.zhihu.com/p/83382019paper:Billion-scale Commodity Embedding for E-commerce Recommendation in Alibabahttps://arxiv.org/pdf/1803.02349.pdf花了一周时间,零零碎碎终于把阿里这篇文章研究了一下,也看了很多知乎大佬的讨...原创 2019-09-20 17:53:10 · 2546 阅读 · 3 评论 -
《推荐系统实战》读书笔记——在隐式反馈系统中如何给商品打分
之前看过的一本《pratical recommender systems》的读书笔记,这本书讲了很多网上看不到的,很实际的工程方面的考虑,规则为主,算法为辅。现在网上铺天盖地都是高大上的排序模型,这些都是大公司打出知名度的东西,实际中有几个用到的?推荐成立之初就是规则,现在的算法工程师大多都太飘了,满口的算法模型,各种模型架构的优化,忘记了最初对业务规则的理解,脚踏实地,一直是老板对我说过的最多的...原创 2019-05-17 22:10:38 · 2305 阅读 · 3 评论 -
精读2018 KDD rec best paper—embedding在Airbnb的应用实践
Real-time Personalization using Embeddings for Search Ranking at Airbnb前一段看了这篇文章,由于公司也在用w2v做相似商品推荐,很有感触,发现之前用的数据集简直不忍直视,在此总结了一下个人对这篇文章的看法,分享出来,有不足之处还请指教和讨论。主要参考了两位大佬王喆和吴海波的知乎,少绕了很多弯路,深表感谢。文章用的模型...原创 2019-02-20 22:25:55 · 2585 阅读 · 1 评论 -
Deep Neural Networks for YouTube Recommendations 工程Tricks总结
Deep Neural Networks for YouTube Recommendations 2016 继项亮书后值得反复品味的推荐入门神文。首先奉上两位大佬的博客,也是主要参考的地方。其实这篇文章已经看过两三次了,一些地方总是看不懂,直到这两天王喆大佬在某乎提供了一个大家分享经验的平台后,很多地方都理解了,一些至今仍在工程中应用的东西,原来都能在这篇文章中找到。王喆沙韬伟其...原创 2018-12-18 11:40:42 · 817 阅读 · 0 评论 -
推荐系统——通用补全&冷启动逻辑调研
冷启动一直是各个公司的命门,上周调研了各相似业务公司的补全或者好的trick,总结如下,欢迎各位好友补充评论,可以深入交流有关推荐系统的各个方面。 新用户的行为很有限,尽量通过有限的信息,来猜测用户的兴趣+热门推荐补全,一方面是为了解决冷启动问题,另一方面是为了补全或提高召回集的多样性。另外,还应该根据运营,产品的角度确定一些人为的规则,比如“近期的一些大型活动”,“主推商品”可以补全...原创 2018-11-05 20:48:44 · 821 阅读 · 0 评论 -
大数据下的相似度计算方法——Uber实践基于局部敏感哈希LSH
近期在contented based召回模块寻找相似商品时牵扯到大量计算,内存和耗时都是不可接受的,于是查找了多篇文章,找到了spark的LSH方法,示例代码写的很简单,这里有一篇uber的实践,写得很详细,特转载,仅供个人查看,如有不妥,请联系我。https://cloud.tencent.com/developer/article/1035600在这篇文章中:为什么使用LSH?LSH 在...转载 2018-11-05 20:31:49 · 4910 阅读 · 3 评论 -
精读&解析 Entire Space Multi-Task Model(ESMM) 阿里2018年CVR预测
近期公司在CTR模型的基础上准备重写CVR模型,目前处于调研阶段,读了阿里的处理方法,特意记录下来,温故而知新。下面按照个人理解介绍这篇文章内容,主要思想借鉴一篇博客,文字寻源参考原paper<Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate>...原创 2018-11-07 21:07:01 · 14817 阅读 · 7 评论 -
机器学习之类别不平衡问题 —— ROC和PR曲线
写在前面:在CTR预估中,用户发生点击行为这类正样本显著少于负样本,那么用ROC来评价通常结果非常乐观,在网上调研了两天,对于不平衡问题,有多重评价方法, 尤其是PR曲线最常用,无论是竞赛还是实际场景中,这篇文章总结的非常全面,转载到这。机器学习之类别不平衡问题 (1) —— 各种评估指标机器学习之类别不平衡问题 (2) —— ROC和PR曲线机器学习之类别不平衡问题 (3) —— 采样方...转载 2018-10-17 10:18:01 · 2577 阅读 · 0 评论 -
各大厂CTR预估模型总结
各大厂CTR预估模型总结导语笔者对各大厂商CTR预估模型的优缺点进行对比,并结合自身的使用和理解,梳理出一条CTR预估模型的发展脉络,希望帮助到有需要的同学。0.&nbsp;&nbsp;提纲1. 背景2. LR 海量高纬离散特征 (广点通精排)3. GBDT 少量低纬连续特征 (Yahoo &amp;&nbsp;Bing)4. GBDT+LR&nbsp;(FaceBook)5. FM+DNN (...转载 2018-10-02 16:38:23 · 1894 阅读 · 0 评论 -
基于Spark MLlib.FPGrowth挖掘电商物品间的关联规则
本文是个人对分析商品间关联关系的一篇总结。不同于找相似商品,关联关系想要找到商品间有潜在购买关系,比如啤酒尿布,香烟和打火机,炒菜锅和炒勺等等。首先从Apriori开始讲起:关联规则简述此处大部分是对一篇英文博客的理解,原地址找不到了…Association rules analysis is a technique to uncover how items are assoc...原创 2018-09-15 11:21:05 · 1349 阅读 · 0 评论 -
【转】利用泰勒公式推导梯度下降法
原作者: 红色石头|来自: AI有道梯度下降算法的公式非常简单,”沿着梯度的反方向(坡度最陡)“是我们日常经验得到的,其本质的原因到底是什么呢?为什么局部下降最快的方向就是梯度的负方向呢?也许很多朋友还不太清楚。没关系,接下来...转载 2018-08-25 10:27:09 · 4468 阅读 · 0 评论
分享