- 博客(13)
- 收藏
- 关注
原创 【综述阅读】A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT
笔者主要从事NLP相关方向,因此在阅读该综述时,重点归纳整理了NLP部分的内容,对于CV和GL的PFMs应用仅以了解为主,如有需要再查漏补缺。
2023-03-23 12:58:23
4864
原创 【综述阅读】Pre-trained Language Models for Text Generation: A Survey
本文是中国人民大学发表在IJCAI 2021的文本生成综述论文的扩展版本。作者从预训练语言模型应用于文本生成任务的三个挑战出发,即编码输入表征、设计用于文本生成的PLM模型架构、优化PLMs,详细列举了目前每个挑战下的研究进展。文本生成任务的发展脉络:统计语言模型->深度学习模型(seq2seq)->PLMs范式i. 文档摘要生成ii. 对话摘要生成。
2023-03-19 15:49:29
1371
原创 【论文阅读】BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation
BART是一个encoder-decoder的结构,其encoder端的输入是加了噪音的序列,decoder端的输入是right-shifted的序列,decoder端的目标是原序列。模型设计的目的很明确,就是在利用encoder端的双向建模能力的同时,保留自回归的特性,以适用于生成任务。BART是一种用于预训练seq2seq模型的去噪自编码器,模型的训练过程大致是利用噪声函数破坏文本,再通过模型学习重建完整的原始文本。论文地址:https://arxiv.org/pdf/1910.13461.pdf。
2023-03-15 21:37:38
344
1
原创 【论文阅读】PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
谷歌 ICML 2020论文地址:https://arxiv.org/abs/1912.08777PEGASUS是谷歌提出的一个专门针对摘要生成的预训练模型,在多种领域的摘要数据集上相比于其他通用预训练模型,都取得了最优的效果。
2023-03-14 22:39:51
380
1
原创 T5模型总结概述
T5是一个统一的模型框架,将各类NLP任务都转化为Text2text任务(即无监督/有监督的文本生成预训练任务),使得这些任务在训练时能够使用相同的目标函数,在测试时使用相同的解码过程。
2023-03-13 17:20:28
3246
原创 【论文阅读】Multimodal Chain-of-Thought Reasoning in Language Models
亚马逊推出的multimodal-COT,使用多模态数据触发CoT进行推理问答,在参数量小于 10 亿的情况下,在 ScienceQA 基准测试中,比 GPT-3.5 高出 16 个百分点 (75.17%→91.68%),甚至超过了许多人类。
2023-03-05 15:00:56
1375
1
原创 【会话推荐论文阅读】Exploiting Group-level Behavior Pattern for Session-based Recommendation
现有的研究都集中在instance-level会话学习,而忽略了group-level的用户偏好,而group-level的用户偏好对用户行为建模具有重要意义。
2022-10-17 15:43:47
229
1
原创 Latex 表格中内容过于贴近表线 解决方案
第一次用latex真的快吐啦…做表格的时候总是遇到文字贴近边线 明明设置了居中但还是上下飘????后来发现是设置了\hline的原因,改成\cline{n-m} 就能完美解决哈哈!效果如下:(虽然是个小问题,但真的找了好久的原因 我哭。)...
2021-11-19 12:38:51
2450
2
原创 【会话推荐论文阅读】Unsupervised Proxy Selection for Session-based Recommender Systems
Unsupervised Proxy Selection for Session-based Recommender SystemsSIGIR 2021找了一圈也没见有人分享这篇论文的解读,斗胆把个人的理解记录下来,如有不足之处欢迎指教!代码地址:https://github.com/Junsu-Cho/ProxySRProblem:由于(匿名)会话推荐任务中没有提供用户相关的信息,因此现有的SRS推荐模型虽然已经能有效对会话中的短期兴趣(short-term interest)进行建模,但没有充
2021-09-18 14:39:38
602
6
原创 linux系统 在python3.6/CUDA 11环境下安装tensorflow 1.15
今天在实验室服务器(3090)上跑别人用tensorflow写的代码,CPU使用率飙高,吓得我赶紧停了QAQ。后来发现是因为GPU无法使用,其原因是官网中cuda11.X,仅支持tf2.X,不支持tf1.X。通过查阅资料,参考大佬的方法,最终成功在cuda11、python3.6环境下使用tf-gpu 1.15版本:)参考网址:https://www.it610.com/article/1419985725641838592.htm具体方法如下:# 推荐在虚拟环境下操作(非必要)# python
2021-08-05 20:56:18
3835
5
原创 【会话推荐论文阅读】Self-Supervised Hypergraph Convolutional Networks for Session-based Recommendation
这篇文章发表于2021 AAAI,迭代了4次,最后一次相较于初版(未接收)改动可以说是彻头彻尾,但构建超图并引入自监督学习的思想还是一脉相承的。本文就最新版整理一下论文内容,以及个人理解。Problem:在会话推荐中,最近的GNN方法(SR-GNN,FGNN等)将item transition视为成对关系(pairwise relations),但忽略了item之间复杂的高阶关系。Motivation:1. 作者认为一个会话中的items序列是与时间相关的,但并不是严格的顺序依赖;2. 通过构建超
2021-06-09 21:56:30
1080
8
原创 解决pip安装依赖包速度慢,推荐好用的国内镜像
目前用过最好用的国内镜像应该就是豆瓣了安装tensorflow-gpu毫无压力,不到半分钟完事mark 一下pip install 【package】 -i https://pypi.douban.com/simple
2021-02-05 11:52:57
288
1
原创 【序列推荐论文阅读】A Simple Convolutional Generative Network for Next Item Recommendation
**A Simple Convolutional Generative Network for Next Item Recommendation**2019 WSDM这篇文章主要是与Caser进行对比,设计了NextItNet模型,它借鉴pixelCNN的思想,采用层叠的1维空洞卷积扩大感受野来提取item序列特征,加入了残差学习的机制以防止梯度消失的问题,并且为了减少模型中的参数,使用了1*1卷积核进行降维和升维操作。Problem基于RNN的序列推荐模型,通常依赖于整个过去的隐藏状态,不能
2021-02-02 17:49:55
1333
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人