自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 【综述阅读】A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT

笔者主要从事NLP相关方向,因此在阅读该综述时,重点归纳整理了NLP部分的内容,对于CV和GL的PFMs应用仅以了解为主,如有需要再查漏补缺。

2023-03-23 12:58:23 4864

原创 【综述阅读】Pre-trained Language Models for Text Generation: A Survey

本文是中国人民大学发表在IJCAI 2021的文本生成综述论文的扩展版本。作者从预训练语言模型应用于文本生成任务的三个挑战出发,即编码输入表征、设计用于文本生成的PLM模型架构、优化PLMs,详细列举了目前每个挑战下的研究进展。文本生成任务的发展脉络:统计语言模型->深度学习模型(seq2seq)->PLMs范式i. 文档摘要生成ii. 对话摘要生成。

2023-03-19 15:49:29 1371

原创 【论文阅读】BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation

BART是一个encoder-decoder的结构,其encoder端的输入是加了噪音的序列,decoder端的输入是right-shifted的序列,decoder端的目标是原序列。模型设计的目的很明确,就是在利用encoder端的双向建模能力的同时,保留自回归的特性,以适用于生成任务。BART是一种用于预训练seq2seq模型的去噪自编码器,模型的训练过程大致是利用噪声函数破坏文本,再通过模型学习重建完整的原始文本。论文地址:https://arxiv.org/pdf/1910.13461.pdf。

2023-03-15 21:37:38 344 1

原创 【论文阅读】PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization

谷歌 ICML 2020论文地址:https://arxiv.org/abs/1912.08777PEGASUS是谷歌提出的一个专门针对摘要生成的预训练模型,在多种领域的摘要数据集上相比于其他通用预训练模型,都取得了最优的效果。

2023-03-14 22:39:51 380 1

原创 T5模型总结概述

T5是一个统一的模型框架,将各类NLP任务都转化为Text2text任务(即无监督/有监督的文本生成预训练任务),使得这些任务在训练时能够使用相同的目标函数,在测试时使用相同的解码过程。

2023-03-13 17:20:28 3246

原创 【论文阅读】Multimodal Chain-of-Thought Reasoning in Language Models

亚马逊推出的multimodal-COT,使用多模态数据触发CoT进行推理问答,在参数量小于 10 亿的情况下,在 ScienceQA 基准测试中,比 GPT-3.5 高出 16 个百分点 (75.17%→91.68%),甚至超过了许多人类。

2023-03-05 15:00:56 1375 1

原创 【会话推荐论文阅读】Exploiting Group-level Behavior Pattern for Session-based Recommendation

现有的研究都集中在instance-level会话学习,而忽略了group-level的用户偏好,而group-level的用户偏好对用户行为建模具有重要意义。

2022-10-17 15:43:47 229 1

原创 Latex 表格中内容过于贴近表线 解决方案

第一次用latex真的快吐啦…做表格的时候总是遇到文字贴近边线 明明设置了居中但还是上下飘????后来发现是设置了\hline的原因,改成\cline{n-m} 就能完美解决哈哈!效果如下:(虽然是个小问题,但真的找了好久的原因 我哭。)...

2021-11-19 12:38:51 2450 2

原创 【会话推荐论文阅读】Unsupervised Proxy Selection for Session-based Recommender Systems

Unsupervised Proxy Selection for Session-based Recommender SystemsSIGIR 2021找了一圈也没见有人分享这篇论文的解读,斗胆把个人的理解记录下来,如有不足之处欢迎指教!代码地址:https://github.com/Junsu-Cho/ProxySRProblem:由于(匿名)会话推荐任务中没有提供用户相关的信息,因此现有的SRS推荐模型虽然已经能有效对会话中的短期兴趣(short-term interest)进行建模,但没有充

2021-09-18 14:39:38 602 6

原创 linux系统 在python3.6/CUDA 11环境下安装tensorflow 1.15

今天在实验室服务器(3090)上跑别人用tensorflow写的代码,CPU使用率飙高,吓得我赶紧停了QAQ。后来发现是因为GPU无法使用,其原因是官网中cuda11.X,仅支持tf2.X,不支持tf1.X。通过查阅资料,参考大佬的方法,最终成功在cuda11、python3.6环境下使用tf-gpu 1.15版本:)参考网址:https://www.it610.com/article/1419985725641838592.htm具体方法如下:# 推荐在虚拟环境下操作(非必要)# python

2021-08-05 20:56:18 3835 5

原创 【会话推荐论文阅读】Self-Supervised Hypergraph Convolutional Networks for Session-based Recommendation

这篇文章发表于2021 AAAI,迭代了4次,最后一次相较于初版(未接收)改动可以说是彻头彻尾,但构建超图并引入自监督学习的思想还是一脉相承的。本文就最新版整理一下论文内容,以及个人理解。Problem:在会话推荐中,最近的GNN方法(SR-GNN,FGNN等)将item transition视为成对关系(pairwise relations),但忽略了item之间复杂的高阶关系。Motivation:1. 作者认为一个会话中的items序列是与时间相关的,但并不是严格的顺序依赖;2. 通过构建超

2021-06-09 21:56:30 1080 8

原创 解决pip安装依赖包速度慢,推荐好用的国内镜像

目前用过最好用的国内镜像应该就是豆瓣了安装tensorflow-gpu毫无压力,不到半分钟完事mark 一下pip install 【package】 -i https://pypi.douban.com/simple

2021-02-05 11:52:57 288 1

原创 【序列推荐论文阅读】A Simple Convolutional Generative Network for Next Item Recommendation

**A Simple Convolutional Generative Network for Next Item Recommendation**2019 WSDM这篇文章主要是与Caser进行对比,设计了NextItNet模型,它借鉴pixelCNN的思想,采用层叠的1维空洞卷积扩大感受野来提取item序列特征,加入了残差学习的机制以防止梯度消失的问题,并且为了减少模型中的参数,使用了1*1卷积核进行降维和升维操作。Problem基于RNN的序列推荐模型,通常依赖于整个过去的隐藏状态,不能

2021-02-02 17:49:55 1333

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除