夏未眠秋风起-优快云博客

原创小小的声明

以后优快云上只展示一部分内容，论文研读部分转战到知乎：夏未眠 - 知乎

2021-10-13 21:00:58 502

原创 RecSys‘21阿里表征去噪，并提取用户长期兴趣Denoising User-aware Memory Network for Recommendation

现在越来越多的推荐模型开始利用用户的点击序列来发掘用户的兴趣，本文主要是关注用户的如何在序列表征中去噪，并对用户的长期兴趣进行发掘建模，从而提出user-aware memory network (DUMN).背景阿里之前已经提出过很多利用用户历史点击序列来建模进行推荐的模型，比如DIEN，DIEN等等。但是这些方法都没有考虑到序列中的噪声对表征的影响，并且通常我们使用用户的短序列建模后可以发掘用户的短期兴趣，而如果想要挖掘用户的长期兴趣则需要更长的序列，而这会导致很大的内存和计算消耗，并且从用.

2021-10-12 22:06:12 853

原创 KDD‘21华为数值型特征做embedding，An Embedding Learning Framework for Numerical Features in CTR Prediction

![image.png](https://img-blog.csdnimg.cn/img_convert/9f5e46856e59bab63d7a2a3f6e355ef4.png#clientId=u0fda268d-c8bb-4&from=paste&height=106&id=u229c3430&margin=[object Object]&name=image.png&originHeight=211&originWidth=1198&o

2021-10-11 22:41:08 1087

原创 KDD‘21推荐系统离散特征表征无embedding table Learning to Embed Categorical Features without Embedding Tables for

本文是针对推荐系统中离散特征的embedding方法提出了新的改进方案。这里主要会涉及到one-hot编码和hash，不明白的小伙伴可以先学习一下。背景embedding在推荐系统中也是属于重要的一步，好的embedding可以节省空间，时间，并且达到好的推荐效果。现存的embedding方法可以统一概括为以下步骤：现存的大部分embedding都是基于one-hot，这里以one-hot为例，先将原始数据例如“性别包含男，女”则one-hot就是2维，到这就是encoding，然后得到男或女的o.

2021-10-10 16:45:11 580

原创 SIGIR‘21因果推断——不要把流行度偏差一棍子打死Causal Intervention for Leveraging Popularity Bias in Recommendation

Causal Intervention for Leveraging Popularity Bias in Recommendationhttps://arxiv.org/pdf/2105.06067.pdf背景本文所提方法针对召回阶段所用方法。之前的工作考虑的是如何缓解流行偏差带来的问题，包括IPS，causal embedding等，而本文考虑的是直接缓解流行偏差而不是流行偏差带来的影响。并且本文考虑到“不是所有流行偏差都是有害的”，流行的item可以反映这个item的趋势和内在特性。而我们..

2021-10-08 21:28:34 2341 2

原创 www21推荐系统之点击原因分解：用户兴趣和一致性（流行度）Disentangling User Interest and Conformity for Recommendation with Cau

Disentangling User Interest and Conformity for Recommendation with Causal Embeddinghttp://staff.ustc.edu.cn/~hexn/papers/www21-dice.pdf背景本文依旧是利用因果推断相关理论进行推荐系统纠偏的一篇文章，相关详细例子可以前往deconfounded中的“举个栗子”进行查看。这里进行简述，作者分析在用户购物的过程中，用户点击某个商品，一方面可能是因为他对这个感兴趣，另一方..

2021-10-06 22:24:43 1819

原创推荐系统（五）——SIGIR‘21用反事实推断缓解点击诱饵，还在为标题党烦躁吗？请看这篇文章

Clicks can be Cheating: Counterfactual Recommendation for Mitigating Clickbait Issuehttps://dl.acm.org/doi/pdf/10.1145/3404835.3462962本文将用到以下相关知识：反事实推断TE、NDE、TIE背景在生活中，无论我们用什么软件（购物、资讯等），都会遇到这样的情况：看到的封面和标题跟点进去的内容不匹配，即标题党。而这些欺骗性的信息会使用户体检变差，而因为用户之前由..

2021-10-04 20:36:20 1251

原创推荐系统（四）——因果效应uplift model系列模型S-Learner，T-Learner，X-Learner

在之前的文章中我们介绍了使用因果推断中的去除混杂和反事实的相关理论来纠正推荐系统中的偏差问题。在这篇文章中主要和大家分享uplift model相关知识和方法。例子小夏的商铺在上次请了明星代言后，销量有所上升，但是他不清楚是不是每个人都对这个明星感冒，有的用户可能没看到广告也打算购买。如果小夏可以给部分用户推送明星代言广告，就可以节约一些成本了（机智的小伙伴可能已经发现了，这里就是一个反事实推断的过程，即如果不展示广告会是什么样呢？）。这里就可以用uplift model来建模。基础知识uplift

2021-10-02 16:36:04 9568

原创推荐系统（三）：推荐系统中常见多任务模型MMOE，ESMM，CGC，AITM

在实际生活中，我们关注的任务往往是一对多的，例如推荐系统场景中，我们希望物品的点击率和转化率都要高，如果只是单纯的集中于优化某一个目标，往往会导致其他被忽略的目标变差。多任务学习通过共享目标之间的表征，优化多个任务的目标，从而改善多个任务的模型性能，因此多任务模型在推荐系统中很常见。这次和大家分享其中常见的几种多任务模型MMOE，ESMM，CGC，AITM，文末给出了参考文献，有兴趣的小伙伴可以从论文中获取详细内容。Hard-parameter sharing图...

2021-09-27 20:21:25 7340

原创推荐系统+因果推断（二）——kdd‘21用反事实推理缓解召回阶段的数据流行度偏差Model-Agnostic Counterfactual Reasoning for EliminatingPopu

Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender Systemhttps://dl.acm.org/doi/pdf/10.1145/3447548.3467289本文中将会用到因果推断中反事实部分的知识，具体内容可以查看之前的文章，这里就不对反事实相关内容重复叙述了。背景背景和上一篇的背景类似，都是为了解决流行数据偏差问题。想要详细了解例...

2021-09-25 12:21:22 3080

原创秋招简单总结，蚂蚁，百度，华为，美团，b站，字节跳动

虽然秋招还在如火如荼的进行中，不过我的秋招估计就差不多结束了，拿了意向之后就开始疲了。动力大大下降，所以差不多就在这和大家分享一些秋招的经验吧，虽然offer拿得不多，但是也可以从失败的教训中吸取一些有用的经验。那么就在这和大家分享一下我的小小心得。这里就不写具体问什么题了，在一些面经里面可以找到，主要是分享一些注意事项和对自己的总结吧。蚂蚁面经百度面经华为面经美团面经 b站面经字节面经数据结构和算法无论是算法岗还是开发岗还是测试岗，万变不离其宗，重中之重自然就是数据结构和算法了，

2021-09-23 14:04:25 353

原创推荐系统+因果推断（一）——KDD2021推荐系统中去除混淆缓解偏差放大

今天和大家分享一篇因果推断和推荐系统结合的文章。因果推断在推荐系统中主要应用于用户增长、定价算法以及纠偏等领域，这篇文章属于纠偏领域。主要用到了我们前面因果推断（二）和因果推断（四）中提到的混杂和后门调整等内容，有不熟悉的小伙伴可以翻看前面的文章，好啦，进入正题。背景推荐系统中通常用于学习的数据是不平衡的。由于我们是从用户的历史点击或者转化数据中进行学习，因此通常会面临这样一个问题：对于推荐过的商品我们会认为用户是很感兴趣的，所以很可能会继续给他推荐，而对于没有推荐过的商品，...

2021-09-21 19:47:12 4911 3

原创因果推断（五）——反事实，后悔药？

反事实推断一个词概括就是“后悔”。例子：“还是以小夏开店为例，小夏请了A明星代言后，销售量虽然有提升，但是由于该明星的代言费很贵，导致最终还是亏本了。于是，小夏想要是当时没有请明星代言，会不会就不亏本了。”——推断没有发生过的事情，就是反事实推断，当前的事实是请了A明星，没有发生的事情是不代言。反事实的定义与计算反事实的计算可以通过干预实现，在外生变量U=u的情况下，假如B=b的话，C的值会是多少。这里对B进行干预do(B=b)，则以下面这个因果图为例...

2021-09-20 20:43:06 3689 1

原创华为消费者一面二面三面面经

一面二面之前的帖子聊过了，大家可以跳转三面是主管面，没有基础知识或者那些比较八股的内容，主要是自我介绍聊聊项目，没深挖在项目中扮演的角色在实验室中，自己的状态，技术大牛？内向？求学或者科研过程中遇到困难的事印象深刻的事对华为的了解，你想在华为有什么样的发展，应该是没回答出他想要的继续问对华为的文化了解吗期望base地期望总包（说是随便聊聊，不会影响过不过）反问整个过程相对轻松，不是那种压力面，虽然不知道最后过不过，祝愿大家都能收获满意的offer更多..

2021-09-18 10:11:28 946

原创因果推断（四）——后门调整、前门调整、逆概率加权

在因果推断（三）中，我们介绍了干预的相关概念，在本文中，我们对一些方法进行介绍，这些方法可用于利用干预分析变量之间的因果关系。在因果推断（三）中，我们得出了调整公式，如上式。假设PA为A节点的所有父节点的集合，则上式可以修改为其中b为PA所有可能的取值后门调整回顾后门准则的定义：对于X到Y的路径中，如果Z集合中的节点不是X的后代节点，并且以Z为条件会阻断所有X和Y之间的后门路径，则Z满足（X,Y）的后门准则。如果B满足后门准则，则后门调整公式就是我们在...

2021-09-15 13:53:20 13098 5

原创华为消费者算法岗一面二面

不吹不黑，u1s1，华为是我面的几家公司里面一面二面相对简单的，没怎么问基础知识，对项目的探讨会更多一点，所以其实也看个人，如果有的小伙伴对项目不是很熟，对基础知识比较熟可能会觉得有点难一面逐个介绍简历里的项目，然后自己挑一个进行详细介绍，然后面试官会对项目中的一些内容进行发问，这个就取决于每个人的项目内容了第一题算法题，替换字符串中的空格为其他特定的字符串，要求空间复杂度尽量低。写完后，问了我是否会溢出，即python中值太大是否会溢出第二题，假设有一个函数f是已知的，知道f(a)=5

2021-09-14 16:46:36 5199

原创因果推断（三）——结构因果模型、干预、辛普森悖论

主要内容结构因果模型干预辛普森悖论调整公式结构因果模型（Structural Causal Model, SCM）定义：结构因果模型被定义为一个有序三元组<U,V,f>，U为外生变量，即有模型外部因素决定，外生变量不能是其他变量的后代；V为内生变量，即由模型内部因素决定，内生变量至少是一个外生变量的后代；f为一组方程，通过f可以用外生变量推导出内生变量的值SCM包含图结构和变量，简单的例子如下：以因果推断（二）中的诺贝尔奖和巧克力的事

2021-09-10 13:42:38 7602 4

原创因果推断（二）——混杂因子，D-分离，后门准则

上次已经和大家分享了因果推断中的贝叶斯相关知识，今天这部分和大家分享因果推断中的混杂因子，D-分离，后门准则的相关内容。先上例子以上一篇中的诺贝尔奖和巧克力的事件为例，下图是他们三者的因果图，从图中可以看出这是一个叉式结构，即A和C相关。但是他们的相关性是通过“经济，教育水平”关联的，他们之间是伪相关，而B就是混杂因子，是它造成了A和C之间的伪相关。从字面上也很好理解，是因为B的存在导致我们对A和C之间的因果关系产生了混乱。下图这种形式B也是confunder，即混杂因子。这种情况下，.

2021-09-08 12:11:59 10163 3

原创因果推断学习笔记（一）

在日常生活中，我们常常会用到因果推断。比如“你淋雨了，赶紧去洗澡，不然容易着凉，感冒”这里我们认为淋雨是感冒的因，通过原因，来推断可能得结果“我拉肚子了，可能是昨天海鲜吃多了”这里我们认为海鲜吃多了是拉肚子的因，并且通过拉肚子反推可能得原因因果推断遍布生活的方方面面，而在大数据时代，因果推断也在机器学习领域逐渐火了起来。要学习因果推断，我们必须先学习一些预备知识。因果性和相关性首先我们需要区分因果性和相关性。相关性：一个比较经典的例子，研究发现一个国家消耗巧克力越多，这个

2021-09-05 11:03:40 3425

原创蚂蚁金服，从实习到转正，附面经笔经

未经允许，不得转载实习生活动集团的各种讲座，了解蚂蚁文化or技术讲座（ps: 自愿参加）大组内部也会有讲座，还是蛮有用的会有open day，可以理解为大家互相了解，玩一玩，有礼品组内会有团建，吃吃喝喝玩玩组内会有分享会，分享一些新知识，有特殊日子会一起庆祝实习生相对轻松，可以早走，有事就请假答辩完还送了大礼包！！笔经面经笔试 leetcode 815.公交线路（hard） leetcode 1411 给N x 3...

2021-09-02 10:25:16 1000

原创 leetcode刷题题目分享

https://blog.youkuaiyun.com/naocanmani/article/details/119919192接这篇分享，这次和大家分享一下我在刷题过程中遇到的一些值得二刷的题，或者是一些有趣，或者是一些易错的题，希望对大家有参考价值。https://leetcode-cn.com/problem-list/SiCeZdDu如果有用的话，请不要吝啬你的三连哦！未经同意，不得转载...

2021-08-27 10:44:38 171

原创 2021秋招算法岗部分面经总结——美团、字节、bilibili

未经同意，禁止转载美团到店一面凉经bagging，boosting对比，举例 auc，precision，recall，acc含义过拟合怎么办深度学习优势深挖项目正则表达式推荐模型通常由哪几部分组成，item的id如何embedding，word2vec做法，从word2vec出发，该怎么做id的embedding 常用推荐算法模型有哪些算法题，问的有问题，这边就不提了字节跳动音乐一面，二面（暂时到二面）一面实习项目和论文，论文中的方法相对于传统方法有什么优势

2021-08-25 21:15:44 925 3

原创推荐系统（二）——召回模型，协同过滤 Collaborative Filtering

召回阶段是在大量物品集合中进行初步筛选，找到一部分子集，该子集中的物品与用户具有相对较高的相似度。常用的召回模型有协同过滤，向量化召回，矩阵分解等协同过滤（Collaborative Filtering，CF）协同过滤通常包括基于用户的协同过滤（User CF），基于物品的协同过滤（Item CF）User CF User CF 是给相似用户推荐相似商品。当为A推荐商品时，主要分为两步：第一步，寻找与A相似的用户；第二步，从这些相似的用户找查找这些用户所喜欢的，但是A不...

2021-04-26 15:05:40 619

原创推荐系统学习（一）

学习笔记推荐系统已经深入我们的日常生活，当我们逛淘宝，京东的时候，系统一方面记录着我们的行为，一方面通过历史行为对商品进行推荐。这是机器学习的具体应用，使用机器学习对用户的特征，商品的特征，历史行为以及上下文信息进行建模，从而对用户的兴趣以及可能点击的商品进行推荐。这在推荐系统，计算广告中都普遍存在，正式机器学习，深度学习以及现代经济的快速发展，使得推荐系统成为许多公司，尤其是IT公司不可缺少的一部分。 OK，那这篇文章就是先对推荐系统进行一个简单的介绍，使得大家对推荐...

2021-04-26 10:39:52 255

转载随机森林原理

阅读目录 1 什么是随机森林？2 随机森林的特点3 随机森林的相关基础知识4 随机森林的生成5 袋外错误率（oob error）6 随机森林工作原理解释的一个简单例子7 随机森林的Python实现8 参考内容回到顶部 1 什么是随机森林？　　作为新兴起的、高度灵活的一种机器学习算法，随机森林（Random Forest，简称RF）拥有广泛的应用前景，从市场营销到医疗保健保险，既可以用来做市场营销模拟的建模...

2020-10-03 19:27:44 2982

原创交叉熵与极大似然估计的关系

看了博客记录一下笔记图片来自https://blog.youkuaiyun.com/u012505617/article/details/108753869

2020-10-03 18:54:30 340

原创逻辑回归是做分类问题的，为什么称为“回归”

对于逻辑回归，我们采用sigmoid函数进行分类可以发现，虽然这个函数看上去有很多部分组成，但是我们需要做的是取拟合去拟合一些参数(w)，使得p和x满足这样的线性关系。

2020-10-03 15:34:45 1257

转载交叉熵，相对熵，为什么损失函数用交叉熵

前言在处理分类问题的神经网络模型中，很多都使用交叉熵 (cross entropy) 做损失函数。这篇文章详细地介绍了交叉熵的由来、为什么使用交叉熵，以及它解决了什么问题，最后介绍了交叉熵损失函数的应用场景。要讲交叉熵就要从最基本的信息熵说起1.信息熵信息熵是消除不确定性所需信息量的度量。（多看几遍这句话）信息熵就是信息的不确定程度，信息熵越小，信息越确定。 (因为事件都有个概率分布，这里我们只考虑离散分布)举个列子，比如说：今年中国取消高考了，这句话我们很不确定(甚至心里还觉得这TM是扯淡)，那我们就要去

2020-10-03 14:43:54 1611

吴恩达机器学习课件和作业

空空如也