
paper reading
文章平均质量分 80
John159151
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
#Paper Reading# OneRec
论文大体内容本文介绍了快手团队提出的新一代推荐系统OneRec,旨在解决传统多阶段级联推荐架构存在的计算碎片化、优化目标冲突及与AI前沿技术脱节等问题。Motivation推荐系统框架是级联式的多层框架,该非End2End的框架存在碎片化和优化不一致的问题。因此本文对推荐系统的范式做优化,使用End2End的生成式推荐来重塑推荐系统。Contribution本文提出了End2End的推荐系统新框架,革新了当前的范式,并且在离线和在线都取得了很好的效果。①架构革新:End2End解决推荐问题。原创 2025-08-11 17:54:13 · 613 阅读 · 0 评论 -
#Paper Reading# Meta GRs
论文大体内容本文提出推荐系统的一个新的范式GRs,将LLM的优势发挥到推荐系统中。本文从特征、模型结构、推理等方面对GRs进行了详细描述,最终在离线和在线效果上取得了不错的收益。MotivationTransformer和LLM系列风靡,那么怎么应用到推荐系统中取得收益是需要探索的。Contribution①提出了推荐系统的新范式:生成式推荐系统(Generative Recommenders, GRs)。②对异构特征进行了统一和序列化,包括Sparse和Dense特征,让它们能在GRs里面原创 2025-08-10 16:22:57 · 628 阅读 · 0 评论 -
#Paper Reading# Apple Intelligence Foundation Language Models
论文大体内容本文介绍了Apple AFM团队的2个基础大模型,分别可在服务端和客户端上运行。这两个大模型是Apple的基础模型,文中描述了从训练到评估模型的各个模块。Motivation这是Apple的基础大模型。Contribution①技术落地的完整性,本文详细描述了训练AFM的各个模块和步骤。②提出了从基础模型扩展到具体任务的整体框架,用于Apple后续各个应用的落地。③强调负责任的AI实践,包括整个流程的Principles,以及注重用户的隐私。原创 2025-07-14 20:53:30 · 827 阅读 · 0 评论 -
#Paper Reading# DeepSeek-R1
本文提出DeepSeek-R1模型,主要是以DeepSeek-V3[4]基座模型的基础上进行优化,提升其推理能力。本文首先提出了DeepSeek-R1-Zero模型,探索仅用RL去提升推理能力,并进而提出DeepSeek-R1,拿到很好的效果。原创 2025-05-03 21:42:55 · 1041 阅读 · 0 评论 -
#Paper Reading# DeepSeek Math
本文基于公开的数据集Common Crawl,采用了一种方法抽取出高质量的120B数学数据集,并基于这个数据集训练了一个数学推理模型DeepSeek Math。该模型借助本文提出的GRPO(Group Relative Policy Optimization)方法,增强了其数学推理能力。最终在数学推理上取得了对标GPT-4的效果。原创 2025-05-03 08:43:03 · 648 阅读 · 0 评论 -
#Paper Reading# DeepSeek Math-Shepherd
本文提出了一种面向过程的数学奖励模型Math-Shepherd。它通过自动给解题的每个步骤分配分数,来解决人工标注数据的依赖。从而使得模型不使用人工标注数据也能达到很好的效果。原创 2025-04-29 07:51:07 · 719 阅读 · 0 评论 -
#Paper Reading# DeepSeek-V3
本文发布了DeepSeek-V3模型,框架遵循了V2模型[3],包括MLA和MoE。除此之外,本文融合了MTP(Multi-Token Prediction)的优化点,让模型训练更稠密。经过14.8T的token训练,得到一个671B的模型,共花费557.6万美元,取得了开源模型SOTA的效果,并与闭源模型GPT-4o效果相当。原创 2025-04-21 20:52:44 · 531 阅读 · 0 评论 -
#Paper Reading# DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
本文发布了DeepSeek-V2模型,使用了8.1T tokens去训练,属于236B的MoE模型,激活参数量是21B,特别经济高效。其主要创新点是MLA(Multi-head Latent Attention),相比DeepSeek 67B模型,节省了42.5%的训练花销,减少93.3%的KV cache。原创 2025-04-14 02:13:25 · 761 阅读 · 0 评论 -
#Paper Reading# DeepSeekMoE: Towards Ultimate Expert Specialization in MoE Language Models
本文将DeepSeek LLM从Dense模型改为MoE模型,这也是follow了GPT的发展之路。主要工作是探索MoE的结构,包括增加专家的数量以及拆分为共享专家和独享专家。通过这样的操作,虽然模型参数量增大,但是实际infer的时候激活的参数量并不大,从而达到效果提升且成本降低的成效。原创 2025-04-13 23:13:10 · 531 阅读 · 0 评论 -
#Paper Reading# DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
本文主要对scaling laws进行了精细化的研究,给出了一个新的公式,并发布了DeepSeek自己的LLM模型(对标LLaMa2),其中7B和67B的模型对标LLaMa2的7B和70B,并拿到了超过LLaMa2的效果。原创 2025-04-05 16:11:43 · 925 阅读 · 0 评论 -
#Paper Reading# Training language models to follow instructions with human feedback
论文大体内容本文主要提出了GPT-3.5(InstructGPT)模型,通过使用人类反馈的数据集进行监督学习(RLHF,即reinforcementlearning from human feedback),对GPT模型进行Fine-tune,来达到预期效果。原创 2023-02-21 14:21:34 · 3075 阅读 · 0 评论 -
#Paper Reading# Language Models are Few-Shot Learner
论文大体内容本文主要提出了GPT-3(Generative Pre-Training)模型,通过大模型pre-train进行In-context Learning,并在Zero-shot Learning、One-shot Learning和Few-shot Learning上进行实验,在NLU任务上有不错的表现,但也就只有较少的task上能比得上Fine-tune的SOTA。原创 2023-02-20 17:24:05 · 702 阅读 · 0 评论 -
#Paper Reading# Language Models are Unsupervised Multitask Learners
论文大体内容:本文主要提出了GPT-2(Generative Pre-Training)模型,通过大模型pre-train进行Unsupervise Learning,并使用Zero-shot Learning的方式在NLU系列任务中取得收益。Motivation创建通用的大模型,是GPT系列文章的最大目标。而对于未涉猎过的领域(Zero-shot learning),通用大模型的效果会是怎么样的呢?Contribution①训练更通用的pre-train模型;②在zero-shot lea原创 2023-02-18 12:20:51 · 577 阅读 · 0 评论 -
#Paper Reading# Improving Language Understanding by Generative Pre-Training
论文大体内容:本文主要提出了GPT(Generative Pre-Training)模型,通过大模型pre-train + 子任务fine-tune的方式,在NLU系列任务中取得收益。Motivation相对Word2Vec通读全文的方式,本文的GPT模型另辟蹊径,采用通过上文预测下文的方式,更符合人的方式。Contribution①使用半监督学习的方法(大模型pre-train + 子任务fine-tune)进行NLU任务;②在12个task中的9个,取得state-of-art的成绩;原创 2023-02-16 15:20:30 · 666 阅读 · 0 评论 -
#Paper Reading# Pre-trained Language Model based Ranking in Baidu Search
论文大体内容:本文主要提出了一个Pre-trained的模型,通过引入类似BERT的预训练模型到百度搜索引擎的Ranking模块,来提升Ranking的效果。原创 2022-08-16 15:35:22 · 759 阅读 · 0 评论 -
#Paper Reading# Stochastic Optimization of Sorting Networks via Continuous Relaxations
论文大体内容:本文主要提出了NeuralSort模型,通过引入松弛,对置换矩阵变换为单峰行随机矩阵来解决sorting问题,使之前不能end2end训练(不可微分)的模型也能进行梯度下降优化。Motivation:Sorting问题不可微分,引入松弛来克服这个问题。Contribution:①提出NeuralSort模型,克服不可end2end训练问题;②应用NeuralSort模型到排列问题中(采用Plackett-Luce (PL) 分布);③该模型在3个任务中取得收益;.......原创 2022-06-10 15:20:41 · 1109 阅读 · 0 评论 -
#Paper Reading# Self-supervised Learning for Large-scale Item Recommendations
本文主要提出了SSL(Self-supervised Learning)框架,采用对比学习(Contrastive Learning)的方式用于推荐中召回模型的训练,使模型取得更好的效果。原创 2021-12-23 15:53:18 · 2828 阅读 · 0 评论 -
#Paper Reading# Search-based User Interest Modeling with Lifelong Sequential Behavior Data for CTR
论文题目: Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction论文地址: https://dl.acm.org/doi/10.1145/3340531.3412744论文发表于: CIKM 2020论文大体内容:本文主要提出了SIM(Search-based Interest Model)模型,用于支持超长用户行为序列建模,从而使得模原创 2021-09-04 17:38:32 · 441 阅读 · 0 评论 -
#Paper Reading# Learning Graph Meta Embeddings for Cold-Start Ads in Click-Through Rate Prediction
论文题目: Learning Graph Meta Embeddings for Cold-Start Ads in Click-Through Rate Prediction论文地址: https://arxiv.org/abs/2105.08909论文发表于: SIGIR 2021(CCF A类会议)论文所属单位: Alibaba论文大体内容:本文主要提出了GME(Graph Meta Embedding)模型来解决item冷启动问题;Motivation:现有模型冷启动问题解决的不够原创 2021-08-24 15:22:27 · 593 阅读 · 0 评论 -
#Paper Reading# Learning to Warm Up Cold Item Emb for Cold-start Reco with Meta Scaling and Shifting
论文题目: Learning to Warm Up Cold Item Embeddings for Cold-start Recommendation with Meta Scaling and Shifting Networks论文地址: https://arxiv.org/abs/2105.04790论文发表于: SIGIR 2021(CCF A类会议)论文所属单位: 中科院计算所论文大体内容:本文主要提出了MWUF(Meta Warm Up Framework)框架,用于解决冷启动id原创 2021-08-04 16:23:21 · 564 阅读 · 0 评论 -
#Paper Reading# Warm Up Cold-start Advertisements: Improving CTR Predictions via L2L ID Embeddings
论文题目: Warm Up Cold-start Advertisements: Improving CTR Predictions via Learning to Learn ID Embeddings论文地址: https://dl.acm.org/doi/abs/10.1145/3331184.3331268论文发表于: SIGIR 2019(CCF A类会议)论文所属单位: 中科院计算所论文大体内容:本文主要提出了Meta-embedding的方法,用于给新的item生成更好的初始化em原创 2021-08-02 20:55:59 · 496 阅读 · 0 评论 -
#Paper Reading# Res-embedding for Deep Learning Based Click-Through Rate Prediction Modeling
论文题目: Res-embedding for Deep Learning Based Click-Through Rate Prediction Modeling论文地址: https://dl.acm.org/doi/abs/10.1145/3326937.3341252论文发表于: KDD 2019(CCF A类会议)论文所属单位: Alibaba论文大体内容:本文主要提出了Res-embedding的方法,用于优化深度学习模型泛化能力不够强的问题;Motivation:常见的emb原创 2021-04-22 09:12:07 · 379 阅读 · 2 评论 -
#Paper Reading# Learning Tree-based Deep Model for Recommender Systems
论文题目: Learning Tree-based Deep Model for Recommender Systems论文地址: https://dl.acm.org/doi/abs/10.1145/3219819.3219826论文发表于: KDD 2018(CCF A类会议)论文所属单位: Alibaba论文大体内容:本文主要提出了TDM(Tree-based Deep Model)方法,用于优化推荐系统中触发的问题;Motivation:常见的模型触发方法是Tower,然后使用AN原创 2021-04-15 09:14:34 · 284 阅读 · 0 评论 -
#Paper Reading# What You Look Matters? Offline Evaluation of AC for Cold-start Problem
论文题目: What You Look Matters? Offline Evaluation of Advertising Creatives for Cold-start Problem论文地址: https://dl.acm.org/doi/abs/10.1145/3357384.3357813论文发表于: CIKM 2019(CCF B类会议)论文所属单位: 字节跳动论文大体内容:本文主要提出了PEAC(Pre Evaluation of Ad Creative Model)模型,使用内原创 2021-04-13 16:48:26 · 565 阅读 · 0 评论 -
#Paper Reading# MeLU: Meta-Learned User Preference Estimator for Cold-Start Recommendation
论文题目: MeLU: Meta-Learned User Preference Estimator for Cold-Start Recommendation论文地址: https://dl.acm.org/doi/abs/10.1145/3292500.3330859论文发表于: KDD 2019(CCF A类会议)论文所属单位: NCSOFT论文大体内容:本文主要提出了MeLU模型,使用meta-learning的方法(应用MAML框架[1])去解决推荐系统上的冷启动问题。Motiva原创 2021-04-12 15:38:42 · 497 阅读 · 0 评论 -
#Paper Reading# Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
论文题目: Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks论文地址: http://proceedings.mlr.press/v70/finn17a论文发表于: ICML 2017(CCF A类会议)论文所属单位: OpenAI论文大体内容:本文主要提出了与模型无关的Meta Learning框架,能够用于有效解决few-shot learning下的分类、回归、强化学习等问题。Motivation:传统原创 2021-04-08 21:17:33 · 515 阅读 · 0 评论 -
#Paper Reading# Efficient Heterogeneous Collaborative Filtering without NS for Recommendation
论文题目: Efficient Heterogeneous Collaborative Filtering without Negative Sampling for Recommendation论文地址: https://ojs.aaai.org/index.php/AAAI/article/view/5329论文发表于: AAAI 2020(CCF A类会议)论文所属单位: 清华大学论文大体内容:本文主要提出了EHCF(Efficient Heterogeneous Collaborativ原创 2021-04-07 15:06:19 · 298 阅读 · 0 评论 -
#Paper Reading# MOBIUS: Towards the Next Generation of Query-Ad Matching in Baidu’s Sponsored Search
论文题目: MOBIUS: Towards the Next Generation of Query-Ad Matching in Baidu’s Sponsored Search论文地址: https://dl.acm.org/doi/abs/10.1145/3292500.3330651论文发表于: KDD 2019(CCF A类会议)论文所属单位: Baidu论文大体内容:本文主要提出了一个基于Active Learning的数据增强算法——MOBIUS(莫比乌斯),用于解决百度凤巢中广告原创 2021-02-02 15:32:19 · 548 阅读 · 0 评论 -
#Paper Reading# Representation Learning-Assisted Click-Through Rate Prediction
论文题目: Representation Learning-Assisted Click-Through Rate Prediction论文地址: https://arxiv.org/abs/1906.04365论文发表于: arXiv 2019论文所属单位: Alibaba论文大体内容:本文主要提出了一个联合学习的框架DeepMCP,对于传统的CTR预测任务,在使用User和Item的特征基础上,还加入了UI之间的关系,II之间的关系进行联合学习,从而得出更好的效果。Motivation:原创 2021-01-04 17:54:43 · 310 阅读 · 1 评论 -
#Paper Reading# On Sampled Metrics for Item Recommendation
论文题目: On Sampled Metrics for Item Recommendation论文地址: https://dl.acm.org/doi/abs/10.1145/3394486.3403226论文发表于: KDD 2020 best paper论文大体内容:本文主要论述了在推荐领域中,使用采样testset进行evaluate来比较各个模型,有可能会得出相反的结论。Motivation:数据量太大,所以工业界很多情况下都会选择采样。但是采样后计算的指标,是否与不采样的一致呢,原创 2020-09-19 16:07:03 · 669 阅读 · 0 评论 -
#Paper Reading# A Survey on Deep Hashing Methods
论文题目: A Survey on Deep Hashing Methods论文地址: https://arxiv.org/abs/2003.03369论文发表于: arXiv 2020论文大体内容:本文主要对使用深度学习的哈希方法进行了较为全面综述,是一篇总结概览近几年来学术界提出的深度哈希方法的文章。Motivation:深度哈希是近几年来的热方向,大家都将传统的哈希方法往深度学习方向引入,以获取更好的end2end哈希表示。Contribution:本文对深度哈希的综述,方便对这原创 2020-07-05 12:03:52 · 571 阅读 · 0 评论 -
#Paper Reading# Implicit Neural Representations with Periodic Activation Functions
论文题目: Implicit Neural Representations with Periodic Activation Functions论文地址: https://arxiv.org/abs/2006.09661论文发表于: arXiv 2020论文大体内容:本文主要提出使用sin来做激活函数,并且在特定任务上比relu好。Motivation:如何更好的处理复杂信号(如音频、图像、3D)是一个问题。Contribution:①本文提出使用周期激活函数来处理复杂信号(音频、图像原创 2020-06-24 19:22:02 · 1735 阅读 · 0 评论 -
#Paper Reading# AUCµ: A Performance Metric for Multi-Class Machine Learning Models
论文题目: AUCµ: A Performance Metric for Multi-Class Machine Learning Models论文地址: http://proceedings.mlr.press/v97/kleiman19a.html论文发表于: PLMR 2019论文大体内容:本文主要提出了在多分类下的AUC计算方法——AUCµ,具有与AUC同样的特性。Motivation:二分类问题往往会使用AUC进行eval,而多分类上往往会使用softmax。本文提出了AUCµ是为原创 2020-06-19 19:50:03 · 299 阅读 · 0 评论 -
#Paper Reading# TabNet: Attentive Interpretable Tabular Learning
论文题目: TabNet: Attentive Interpretable Tabular Learning论文地址: https://arxiv.org/abs/1908.07442论文发表于: arXiv 2019论文大体内容:本文主要提出了TabNet模型,能够高效地在tabular数据上完成分类/回归的任务,且具可解释性。本文提出的模型是用DNN的方式获得树模型的可解释性,且超越树模型的效果。Motivation:tabular数据一般都使用树模型去处理,怎么用DNN去实现树模型的效原创 2020-06-11 11:54:01 · 1876 阅读 · 0 评论 -
#Paper Reading# Learnable pooling with Context Gating for video classification
论文题目: Learnable pooling with Context Gating for video classification论文地址: https://arxiv.org/abs/1706.06905论文发表于: arXiv论文大体内容:本文主要提出了Gated NetVLAD模型,用于给视频打标,并在kaggle比赛中取得第一名。Motivation:如何更有效的对视...原创 2020-04-29 01:58:36 · 326 阅读 · 0 评论 -
#Paper Reading# PyTorch-BigGraph: A Large-scale Graph Embedding Framework
论文题目: PyTorch-BigGraph: A Large-scale Graph Embedding Framework论文地址: https://arxiv.org/abs/1903.12287论文发表于: SysML 2019论文大体内容:本文主要实现了大规模数据下的graph embedding,在效果微涨的情况下,训练性能有显著的提升,对于工业界大规模图网络的embeddi...原创 2020-04-21 15:57:05 · 663 阅读 · 1 评论 -
#Paper Reading# EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
论文题目: EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks论文地址: https://arxiv.org/abs/1905.11946论文发表于: ICML 2019论文大体内容:本文主要提出了EfficientNet模型,来同时考虑网络的deep、width、resolution(分辨率)...原创 2020-02-23 17:57:24 · 441 阅读 · 0 评论 -
#Paper Reading# Class-Balanced Loss Based on Effective Number of Samples
论文题目: Class-Balanced Loss Based on Effective Number of Samples论文地址: http://openaccess.thecvf.com/content_CVPR_2019/html/Cui_Class-Balanced_Loss_Based_on_Effective_Number_of_Samples_CVPR_2019_paper.ht...原创 2020-02-20 17:50:59 · 698 阅读 · 0 评论 -
#Paper Reading# On the Measure of Intelligence
论文题目: On the Measure of Intelligence论文地址: https://arxiv.org/pdf/1911.01547.pdf论文发表于: arxiv论文大体内容:这篇论文比较有趣,作者主要讨论了怎么测量AI,什么才是AI。然后作者提出了ARC数据集(Abstraction and Reasoning Corpus),用于更好的测量AI的能力。Motiv...原创 2020-02-11 13:43:11 · 705 阅读 · 0 评论 -
#Paper Reading# DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks
论文题目: DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks论文地址: https://dl.acm.org/citation.cfm?id=3330858论文发表于: KDD 2019论文大体内容:本文主要提出了DeepGBM模型,来整合NN与GBDT的优势,支持sparse...原创 2019-12-21 12:22:29 · 635 阅读 · 0 评论