- 博客(242)
- 收藏
- 关注
原创 如何发现品牌潜客?目标人群优选算法模型及实践解析
导读:品牌数字化营销正在成为热点,在Uni-Marketing背景下,我们通过策略中心海豹项目,探索和实践了品牌目标人群优选算法,在实际投放中取得了非常好的人群转化效果,并得出一些有价值的算法和业务结论。本文主要对品牌目标人群优选算法及相关实践结论进行介绍。最近在研究数字化营销算法,随时有好的文章总结会分享一下,本文主要为阿里全域营销相关总结。作者:云鸣、林君、泊智、一初1. 背景简介全域营...
2022-08-14 15:40:00
881
原创 微信大数据挑战赛:周星星方案汇总
本文在比赛结束前将持续更新...5.23 周星星方案已更新. 多模态短视频分类是视频理解领域的基础技术之一,在安全审核、推荐运营、内容搜索等领域有着十分非常广泛的应用。一条短视频中通常包含有三种模态信息,即文本、音频、视频, 它们在不同语义层面的分类体系中发挥着相互促进和补充的重要作用。 微信产品的内容生态繁荣,创作者覆盖范围大, 导致短视频数据中普遍存在着模态缺失、相关性弱、分类标签分布...
2022-06-01 09:57:03
742
2
原创 微信大数据挑战赛:第1周周星星方案汇总
多模态短视频分类是视频理解领域的基础技术之一,在安全审核、推荐运营、内容搜索等领域有着十分非常广泛的应用。一条短视频中通常包含有三种模态信息,即文本、音频、视频, 它们在不同语义层面的分类体系中发挥着相互促进和补充的重要作用。 微信产品的内容生态繁荣,创作者覆盖范围大, 导致短视频数据中普遍存在着模态缺失、相关性弱、分类标签分布不均衡等问题,是实际应用中需要着重解决的技术难点。本赛题要求参...
2022-05-29 16:39:26
715
1
原创 称霸Kaggle的九大深度学习炼丹技巧
Samuel Lynn-Evans@QbitAI差分学习率(Differential Learning rates)意味着在训练时变换网络层比提高网络深度更重要。基于已有模型来训练深度学习网络,这是一种被验证过很可靠的方法,可以在计算机视觉任务中得到更好的效果。大部分已有网络(如Resnet、VGG和Inception等)都是在ImageNet数据集训练的,因此我们要根据所用数据集与ImageNe...
2022-05-22 14:27:35
389
原创 那么多CTR论文,真正能复现出效果的有几个?
CTR预估任务在推荐系统中至关重要,在过去几年间,CTR相关的神经网络文章不下于百篇,但是很多时候我们尝试着去复现这些文章的思路并尝试着运用到自己的生产环境时,却时常无法取得和论文中类似的效果。这些论文中有非常多的实验没有公开源码,也没有公开数据预处理的策略,所以我们复现的时候经常会因为实验设定的不一样或者其他原因,得到与论文中相反的结论,而且大多数时候我们没法保证其在我们自己的场景中也可以达到如...
2022-05-07 14:10:02
419
原创 腾讯多任务模型MFH
以往多任务学习(MTL)的研究都是针对小数量级任务做的,但是在推荐系统里需要对大数量的任务做multi-task的学习.举例来说,在推荐系统中会用MTL对用户多种行为进行建模,不同任务之间有着各种维度的相关性.所以这篇论文<Multi-Faceted Hierarchical Multi-Task Learning for a Large Number of Tasks with Multi...
2022-04-09 16:50:02
734
原创 Transformer总结(2022版)
作者:Xavier Amatriain 翻译: 炼丹小生很多人的“记忆”并没那么好,特别是对名字.这些年各种各样的transformer涌现出来,各有各的优势,但是他们的名字却不能直白的看出该版本的transformer到底做了什么.这篇的目的就是把所有流行的transformer进行清晰简单的分类,以便大家对transformer家族快速梳理。Transformer是什么就不用多说了,201...
2022-03-28 20:48:40
1543
原创 一文看清这些年自监督和无监督的进展
最早在2005年被Sumit Chopra et all提出.对比学习是一种从相似/不相似数据pair对中学习相似/不相似表征的框架。常见的损失函数就是InfoNCE,如下所示:q是query样本的表达,k+和k-分别是正例和负例的表达.通常q和k是同一个图片的增强样本.最后温度超参tau用户调节敏感度,这在很多对比学习论文中都是这样的思路.最著名的莫属Ting Chen et al提出的SimC...
2022-03-19 12:36:50
334
原创 用Dropout思想做特征选择,保证效果还兼顾了线上性能?
这篇论文《Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking: A Learnable Feature Selection based Approach》教会了我们如何做粗排模型兼顾模型的效率和效果.提出了可学习的特征选择方法FSCD,并在真实电商系统中应用.简介如上图(a)所示,受系统时延约束...
2022-03-14 11:45:12
977
原创 神经网络调参技巧:warmup策略
有一些论文对warmup进行了讨论,使用 SGD 训练神经网络时,在初始使用较大学习率而后期改为较小学习率在各种任务场景下都是一种广为使用的做法,在实践中效果好且最近也有若干文章尝试对其进行了理论解释。例如《On Layer Normalization in the Transformer Architecture》等,论文中作者发现Post-LN Transformer在训练的初始阶段,输出层附...
2022-03-12 16:13:24
3201
原创 DEEPNORM:千层transformer...
见过几层的mlp,也见过几十层的GoogleNet,还见过上百层的Resnet,上千层的transformer见过没!这篇论文<DeepNet: Scaling Transformers to 1000 Layers>它来了。它提出了一个简单有效的方法来训练"极深"的transformer。这篇论文提出了一个新的标准化方程(DEEPNORM)去修改transformer中的残差链接。该...
2022-03-12 16:13:10
1722
1
原创 2021年炼丹笔记最受欢迎的10篇技术文章
阶段性整理知识笔记是炼丹笔记的习惯,在这里我们温故而知新,根据文章在全网的阅读情况整理了2021年度,最受欢迎的10篇文章,错过的朋友可以补一下哦。推荐系统内容实在太丰富了,以至于刚开始学的人都无从下手,当年无意中翻到谷歌这篇教程,然后就开启了入"坑"推荐系统的神奇旅程,极力推荐给大家,大家也可以推荐给想学推荐系统的童鞋们。 传送门:入坑推荐系统,从Google这篇开始从文章的内容来看,Norma...
2022-03-06 17:14:45
814
原创 关于多目标任务有趣的融合方式
如何通过融合解决多标签分类(MLC)问题.这里给了两个的方案:SST与大多数机器学习模型一样,这里的目标是构造一个将输入映射到输出的函数,在这种情况下,输出将是一组向量.单一目标(ST)考虑m个单一模型来预测多标签。此外,还引入了stack的方式(SST)提高效果。SST有两个预测阶段。在第一阶段,用m个模型预测m个目标。在后一阶段,通过变换训练集D,为每个目标学习一组m'元模型。在变换后的训练集...
2022-03-01 19:45:12
264
原创 对比学习必知要点
数据增强给定训练样本,我们需要用数据增强来创建带有噪声版本的数据,以作为正样本反馈到损失函数中。正确的数据增强设置对于学习好的泛化性强的embedding至关重要。它在不修改语义的情况下,将非本质变化引入示例中,从而激发模型学习的本质表达。例如,在SimCLR中的实验表明,随机裁剪和随机颜色失真的组合对于学习图像视觉表示的良好性能至关重要。更大的Batch Size在很多对比学习方法中,使用一个较...
2022-02-26 18:42:35
1102
原创 对比表示学习必知的几种训练目标
对比学习的主要思想就是相似的样本的向量距离要近,不相似的要远.对比学习在有监督/无监督场景下都取得了非常亮眼的成绩,所以是我们炼丹的必备知识.早期的对比学习是只有一个正样本和一个负样本进行对比,最近的训练目标变成了一个batch内多个正/负样本进行训练.Contrastive Loss有一系列样本{xi},它们的label yi = {1, ..., L}, L类,还有个函数f将样本xi映射成em...
2022-02-26 18:42:18
467
原创 召回:是"塔",是"塔",但不是双塔!
query到doc这种文本到文本的召回,通常就是各种双塔召回,再排序的过程.谷歌这篇论文<Transformer Memory as a Differentiable Search Index>却偏不.这篇论文提出了Differentiable Search Index(DSI)的方法,直接就把docid编码到了模型中,output直接就是docid,不需要像以往那样还要建立docid...
2022-02-26 18:33:59
855
原创 2021年Kaggle所有赛事TOP方案汇总
本文摘自 coggle数据科学Kaggle2021TOP方案汇总Kaggle 2021年 45场比赛&优胜方案汇总https://www.kaggle.com/c/tabular-playground-series-jan-2021比赛介绍:Practice your ML regression skills on this approachable dataset!比赛类型:Playgr...
2022-02-26 18:33:06
2275
原创 深度学习模型的多Loss调参技巧
在多目标多任务训练的网络中,如果最终的loss为有时为多个loss的加权和,例如 loss = a*loss_x+b*loss_y+c*loss_y+... ,这个问题在微信视频号视频推荐里也存在。任务需要对视频号的某个视频的收藏、点击头像、转发、点赞、评论、查看评论等进行多任务建模,也就产生了多个loss。这里贴一下当时比赛的code:model.compile(loss = {'read_co...
2022-02-25 09:59:53
2611
原创 三种Target Encoding方式总结
目前看到的大多数特征工程方法都是针对数值特征的。本文介绍的Target Encoding是用于类别特征的。这是一种将类别编码为数字的方法,就像One-hot或Label-encoding一样,但和这种两种方法不同的地方在于target encoding还使用目标来创建编码,这就是我们所说的有监督特征工程方法。Target Encoding是任何一种可以从目标中派生出数字替换特征类别的编码方式。这种...
2022-02-11 21:55:19
5350
原创 如何解决高维稀疏的user-item矩阵推荐问题?
推荐系统最重要的就是解决高维稀疏的user-item矩阵推荐问题,基于百万用户感兴趣的item给一个用户推荐他最感兴趣的item是相当有挑战的事.这篇论文<GLocal-K: Global and Local Kernels for Recommender Systems>就提出了一个新的框架Global Local Kernel-based matrix completion(GLo...
2022-02-08 18:12:10
1145
原创 文本摘要方法总结
说到文章摘要大家并不陌生,就是给长文本在不丢失任何重要信息的情况下做个精确的总结。具体有哪些方法呢?可以看以下总结。文章摘要基于抽取的文章摘要(Extraction-based)1 词频 (Leverage word frequencies)2 Textrank (Leverage embeddings similarity with TextRank)3 embedding聚类 (Leverag...
2022-01-23 14:44:45
1029
原创 大道至简,SQL也可以实现神经网络
最近写SQL写多了,突发奇想SQL是不是也能实现简单的神经网络训练呢?于是带着这个问题在GitHub上找了找,还真有....那么本文就来分享一下如何用纯SQL实现一个神经网络吧!题外话,可能有很多人会有疑问,你一个搞算法的,为啥在写SQL?这....就说来话长了... 总之,技多不压身嘛!回归正题,我们再用SQL建模时,利用列来定义参数,从输入层到隐藏层,我们用 w1_00, w1_01, w1_...
2022-01-23 14:44:23
1288
原创 双塔模型没效果了?请加大加粗!
很多研究表明,双塔在一个域表现不错,在其他域表现不好了。一个广泛被认同的观点就是双塔仅仅用了最后一层的点积算分,这限制了模型的召回能力。这篇论文<Large Dual Encoders Are Generalizable Retrievers>就否认了这个观点,通过扩展双塔的网络,就能提升模型对各个召回任务的效果,特别是那些跨域的。实验结果表明,该论文提出的Generalizable ...
2022-01-23 14:43:55
953
原创 就知道调bert,都不知道加个对比学习吗?
说到句向量,大家除了第一反应是用bert的CLS作为句向量,还有就是用word2vec学到每个词的向量,然后把句子中所有的词向量做pooling作为句子的向量。有篇论文SimCSE提到可以引入对比学习。先回顾下对比学习,对比学习的目标无非就是让相似的数据点离的更近,疏远不相关的。假设有一系列pair对:Xi和Xi+是语意相关的,然后可以使用in-batch内负样本配合交叉熵损失。整个学习目标可以用...
2022-01-15 16:20:52
1258
原创 AI圈最新深度学习量化算法!
文章摘自AAAI21,译者:一元量化交易和投资决策是复杂的金融任务,依赖于准确的股票选择。目前深度学习学习的策略使用于股票的问题的方案面临两个重大局限。他们不直接优化利润方面的投资目标;将每只股票视为独立于其他股票,忽略了相关股票之间的丰富信号股票价格变动。本文基于该局限性,将股票预测重新表述为一个学习排序问题,并提出了STHAN-SR,一种用于股票选择的神经超图结构,从而定制一种新的时空注意超图...
2022-01-13 07:43:08
2338
原创 Prompt-Tuning这么好用?
使用prompts去调节预训练模型处理文本分类任务在小样本上已经取得了比直接finetuning模型更好的效果,prompt-tuning的核心思想就是嵌入一小段文本,比如对于文本分类任务,将其转变成填空任务,还有就是构建个映射器(verbalizer)可以在label和word之间相互映射,verbalizer是人工精妙设计的且用梯度下降学习的。论文提到verbalizer可能缺少覆盖度...
2022-01-08 14:51:31
512
原创 搜索算法相似度问题之BM25
在实践中,无论是搜索问题,还是文本问题,如何找到相似的文本都是一个常见的场景,但TFIDF文本相似度计算用多了,年轻人往往会不记得曾经的经典。毕业快4年了,最近准备梳理一下《我毕业这4年》,在整理文档时看到了好久之前的一个比赛,想起了当时TFIDF、BERT的方案都没在指标上赢过BM25的情景,本期我们来聊一聊相似文本搜索的相关知识点。 BM25是信息索引领域用来计算Query与文档相似度得分的经...
2022-01-06 08:23:27
1738
1
原创 No Fine-Tuning, Only Prefix-Tuning
说起fine-tuning,大家再熟悉不过了,NLP和CV领域基本都是各种预训练模型了。使用预训练模型最重要的一步就是fine-tuning,因为下游任务是多种多样的,所以每种下游任务都要有个副本,并且finetune会改变所有的参数。这篇论文<Prefix-Tuning:Optimizing Continuous Prompts for Genreration>就提出一个轻量级的替代...
2022-01-05 21:24:36
1099
原创 NLP中对"困惑度"感到困惑?
困惑度(Perplexity)在NLP中是个最流行的评估指标,它用于评估语言模型学的到底有多好.但是很多炼丹师可能至今对"困惑度"依然感到困惑,这篇就把这个讲清楚.假设我们要做个对话机器人,它功能很简单,就是你跟它说你冰箱有啥,它告诉你还需要买啥,能一起做出美味佳肴.例如"鸡肉,胡萝卜",它能够立马给出5~6种购物清单,这就类似用一个NLP模型,去预估和"鸡肉和胡萝卜"共现较多的食材.但是这样评估...
2021-12-25 14:37:15
439
原创 不加样本就能做数据增强?还能提效?
数据增强早已被广泛应用在提升模型泛化能力上,通过"创造"额外的样本输入给模型使得模型更加鲁棒。近期又有隐式数据增强,不是通过直接创造样本来提高模型效果,那隐式数据增强究竟是怎么做的呢?我们知道,模型在训练集和测试集表现的的差异,主要来自于这两个样本数据分布的差异,所以模型就在训练集上表现更好而在测试集上欠佳,特别是NN类的模型,更容易过拟合。显式的数据增强很明显会增加训练成本,因为使用无监督方法创...
2021-12-25 14:32:09
1986
原创 从用户反馈的可解释性提升推荐模型
当我们在做推荐系统模型时,有考虑过模型推荐结果的可解释性吗?比方说推荐系统给用户推荐了item A,并在推荐结果后标明该用户最要好的朋友喜欢item A,或者和该用户有着相似兴趣(协同过滤)的人喜欢A,这使得推荐结果非常透明且具有说服力,能够提升用户的接受度.这篇论文<Learning from User Feedback on Explanations to Improve Recomme...
2021-12-18 14:23:36
322
原创 炼丹秘术:给Embedding插上翅膀
在实践中,推荐系统利用Deep Learning去生成Embedding,然后通过Embedding在召回层进行召回是一种常用的方法,而且这种方法在效果和响应速度上也不比多路召回差。 同时,在局部敏感哈希方法快速近邻计算的加持下,Embedding表现亮眼,本文作为“炼丹知识点”系列的第6期,我们来聊一聊到底Embedding的相关知识点。炼丹知识点:模型评估里的陷阱炼丹知识点:那些决定模型...
2021-12-18 14:23:26
236
原创 关于"知识蒸馏",你想知道的都在这里!
"蒸馏",一个化学用语,在不同的沸点下提取出不同的成分。知识蒸馏就是指一个很大很复杂的模型,有着非常好的效果和泛化能力,这是缺乏表达能力的小模型所不能拥有的。因此从大模型学到的知识用于指导小模型,使得小模型具有大模型的泛化能力,并且参数量显著降低,压缩了模型提升了性能,这就是知识蒸馏。<Distilling the Knowledge in a Neural Network>这篇论文首...
2021-12-18 14:23:16
959
原创 时间序列里面最强特征之一
作者:杰少,炼丹笔记特邀嘉宾时间序列元特征在时间序列等相关的问题中,除了许多传统的时间序列相关的统计特征之外,还有一类非常重要的特征,这类特征并不是基于手工挖掘的,而是由机器学习模型产出的,但更为重要的是,它往往能为模型带来巨大的提升。在实际的竞赛中也是百试不爽,基本每次使用都可以带来一定的提升,屡试不爽。对时间序列抽取元特征,一共需要进行两个步骤,第一步抽取元特征,第二步则是将元特征拼接到一起重...
2021-12-12 16:52:36
1136
原创 11种必知的word embeddings模型
作者:Fabio Chiusano单词嵌入为序列标注和文本分类等下游任务提供输入特征,在过去的十年中,已经提出了几种单词嵌入方法。Context-independent每个单词都会学习一个唯一的表达而不考虑上下文Context-independent without machine learningBag-of-wordsTFIDFContext-independent with machine ...
2021-12-11 14:05:31
1727
原创 LightGBM笔记
炼丹笔记:记录我们的成长轨迹LightGBM如何保存模型?用lgb保存模型遇到了几个坑,在这里记录一下。在用Lightgbm.LGBMClassifier训练生成模型时,Scikit-learn 官网上建议的两种方式:1.pickle方式这里我写了保存和加载两种方式:import pickledef pkl_save(filename,file): output = open(filen...
2021-12-11 13:58:01
515
原创 自监督学习和对比学习
这篇主要探讨SimCLR,不需要用监督学习(supervision)的方式,采用自监督(self-supervised)的方式使得模型学到很多有用的patterns。众所周知,使用对比学习(修改样本,loss等小trick)就可以显著提高模型的泛化能力,所以我们都需要掌握这项"技艺"。Self-Supervised Learning(SSL):自监督学习是目前机器学习中一个非常流行的分支,不管监督...
2021-12-05 15:37:18
497
原创 网络越"深"越"好"?
深度神经网络的特点是啥?特点就是深,但是越深的网络意味着计算复杂度的加大和更高的延迟,这产生了个疑问?网络真的越深越好吗?有么有"不深又好"的网络呢?这篇论文<NON-DEEP NETWORKS>给了我们肯定的答案。这篇论文充分利用了并行子网络有效的降低了网络的深度并提升了模型的效果。曾几何时,越深的网络就意味着越好的效果,从Inceptions->ResNets->Den...
2021-12-05 15:32:37
629
原创 Trapper: Transformer模型都在此!
Trapper(Transformers wrapper)是一个NLP库,旨在使基于下游任务的transformer模型的训练更加容易。该库提供transformer模型实现和训练机制,它为使用transformer模型时遇到的常见任务定义了带有基类的抽象。此外,它还提供了依赖注入机制,并允许通过配置文件定义训练和评估实验。通过这种方式,可以使用不同的模型、优化器等进行实验,只需在配置文件中更改它...
2021-12-05 15:29:50
170
原创 10大最受欢迎的时间序列Github项目
炼丹笔记 出品,作者:杰少 @大野人007 近几年,随着深度学习的流行,其在时间序列上的应用也越加流行并且在非常多的时间序列预测问题上取得了巨大的突破,本文我们列举了Github上最受欢迎&关注最多的十大相关的时间序列项目(更多倾向于深度学习相关的建模)。关于项目:Python中的时间序列建模项目Github地址:https://github.com/awslabs/gluon-ts/tr...
2021-12-05 15:26:32
727
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人