- 博客(144)
- 资源 (1)
- 收藏
- 关注
原创 GPT-4论文精读【论文精读·53】
那接下来我们要说一个很有意思的东西,叫做steability,就是可以定义它的行为,让这个语言模型按照我们想要的方式去给我们这个答复。然后OpenAI来这里说,相比起这个 ChatGPT 来说, ChatGPT 的人格是固定的,就他每次都是同样的这种,就是语调语气,然后这个回复的风格也是非常一致的,所以说不一定是所有人都喜欢,也不一定回答到每个人的心坎儿里去。但是最新的这个 GPT 4 他们就开发了一个新功能,而这个新功能叫做 system message。
2024-03-02 12:07:13
2050
2
原创 大模型时代下做科研的四个思路【论文精读·52】
大家好,上个礼拜FacebookMetaAI刚刚开源了他们自己的一个语言的大模型,叫做LLAMA,这个LLAMA的模型有65billing的参数,效果自然是不错的。他们的目的也是想让这个大模型更加的亲民,能够让更多人拿到这个模型的参数,有可能就能直接应用到他们的领域中去了,是一件非常好的事儿。他们分别开源了四个模型,从小到大就从有这个70亿、130亿、330亿和650亿参数量,这四个模型。
2024-02-21 12:05:57
1426
原创 多模态论文串讲·下【论文精读·49】最近使用 transformer encoder 和 decoder 的一些方法
那答案是肯定的。我们首先来看 ALBEF,
2024-02-14 12:11:30
1676
原创 多模态论文串讲·上【论文精读·46】只用 Transformer encoder 的一些方法viLT、clip、ALBEF、VLMO
通过这种不停的阅读总结、对比。不说100%,但绝大多数。时候都是应该能够给你一个很明确的研究方向。
2024-02-06 10:19:18
2065
原创 CLIP 改进工作串讲(下)【论文精读·42】
那首先作者先定义了一下问题,他说他现在的任务其实就是在一张白纸上,然后画几个这个曲线,也就他这里说的这种贝塞尔或者贝兹曲线。然后这些曲线当然都是随机初始化的,然后通过这种不停地训练,他希望这些曲线最后就变成了这个简笔画。那现在我们就来具体地看一下每一步是怎么完成的。首先我们说到了这个倍资曲线这个概念,倍资曲线其实是通过一系列的这个空间上二维的点控制的一个曲线。比如说你现在有这样的几个点,那它可能就定义了这么一个曲线。
2024-01-29 10:46:26
1430
原创 CLIP 改进工作串讲(上)【论文精读·42】
那接下来我们就来仔细的看一下什么是 Grouping block,什么是 group token?那老样子我们还是用一个具体的例子来说明这个情况。首先对于图像编码器来说,它这边就是一个 vision Transformer,从头到尾一共有 12 层,也就是说有 12 个这个 transformer layers。那图像编码器这边的输入其实有两个部分,一个就是来自于原始图像的这个 patching bedding,另外一个就是这篇文章提出来的这个可学习的group tokens。
2023-12-15 10:36:05
1584
原创 ViLT 论文精读【论文精读】
作者上来就说视觉文本的预训练任务,缩写为VLP任务,在过去几年发展的不错,在各种各样的视觉文本的下游任务上都取得了很好的成绩。但是之前的这些方法,为了在那些下游任务上获得很好的结果,大家发现往往你在视觉方面花的精力越多,也就是视觉的网络越复杂、越好,最后的结果就会越好,所以之前大部分的VLP的方法,都非常依赖于图像特征的抽取过程,要么是把它看成是一个目标检测的问题,这里就像图1画的一样,不仅有一个图像backbone,还有一个region operation,所以就很贵。
2023-11-27 21:30:33
1815
原创 DALL·E 2(内含扩散模型介绍)【论文精读】Hierarchical Text-ConditionalImage Generation with CLIP Latents
大家好,今天我们就一起来看一下两个月之前 OpenAI 刚放出来的一篇力作。DALL·E 2是 OpenAI 一系列文本图像生成工作的最新一篇。去年 1 月份他们先推出了Dolly,然后在年底的时候又推出了glide。然后现在 4 月份刚推出了 DALL·E 2 一出来其实网友就已经炸开了锅。我记得那两天的 Twitter 上或者说 Instagram 上到处都是DALL·E 2生成的图片,所有的论坛上基本都被DALL·E 2刷屏了。虽然网上有很多很好玩的很新奇的生成了一些图片。
2023-11-13 20:24:16
1791
2
原创 多元高斯分布
但是我们这里面就先写一下还是同样的形态,但这里面我们有一个叫二拍 the d 次方,所以这里的 d 次方是跟我的 x 的维度是一样的,所以我们需要做一个这样的一个操作。我们这里面重点还是来看一下它的一个表示的方法,当然这个表示的方法我们没有必要去一定要记住,因为后面假设涉及到了多元告斯分布我们,而且我们想知道它的表示方法怎么样的时候,你可以去查一下相关的资料就可以了,所以没必要说一定要把它记住。好,那这个是多元的高斯分布,那具体在多元的高斯分布的情况下,我们的。,所以 RD 的一个向量,对吧?
2023-11-09 22:55:41
287
原创 10 DETR 论文精读【论文精读】End-to-End Object Detection with Transformers
把这个目标检测这个任务直接看成是一个集合预测的问题那接下来。我们就来先读一下这个摘要部分,那在摘要里作者一上来就把这篇文章干了什么事交代清楚,他们说我们这篇文章就是把这个目标检测这个任务直接看成是一个集合预测的问题。因为你本来的任务就是给定一个图片,然后你去预测一堆框,然后每个框不光要知道它的坐标,还要知道这个框里所包含的物体的类别。但是这些框其实就是一个集合,对于不同的图片来说,它里面包含的框也是不一样的,也就是说每个图片对应的那个集合也是不一样的。
2023-11-05 20:01:18
4087
2
原创 Data Uncertainty Learning in Face Recognition
事实上,这种模糊的代表着数据的不确定性,这个网络向我们展示了在不确定视角下,简单的回归任务和面部识别回归任务共享同样的模式。在这篇论文中,我们展示了每个面部作为一个高斯分布去建模这种不确定性,同时我们提出两种方法去优化模型。方法一:我们从分布中抽样,得到一个stochastic嵌入。传统的面部识别方法即使在图片中面部模糊的情况下,耶给出确定的面部识别特征。这是我们的方法在主要任务上的性能,超过 了过去的方法。方法二:我们微调最后一个全连接层。
2023-11-02 16:47:46
183
原创 逐字稿 | 9 视频理解论文串讲(下)【论文精读】
总之作为第一篇把这个 vision consumer 用到视频理解领域来,本文的结果其实已经算不错了。接下来很快我们组这边也有一篇VIDTR,也是用类似的思想去做 video Transformer 的,然后 Facebook 那边还有另外一篇 MVIT Multi skill vision Transformer,也是做 video Transformer 的,效果会更好。
2023-10-23 19:52:32
823
2
原创 逐字稿 | 2 MoCo 论文逐段精读【论文精读】
那到底什么是对比学习?假如说我们有两张图一,图二,还有一个图3,然后图一里有一个人儿,图 2 里也有一个人儿,可能图一里的这个人是高兴的,图 2 这个人是不高兴的,然后图 3 里我们有一只狗,我这个画画水平有点儿糙,大家忍一下。那我们希望模型在看到这三张图片以后,它能分辨出前面这两张图片属于一个类别,后面这个明显跟前面不是一个类别,所以对比学习,顾名思义就是说对比着去学习。模型并不需要真的知道这两张图片代表的是人,也不需要知道这张图片代表的是狗,它只需要知道这两张图片类似,而这张图片跟前两张图片不类似。
2023-10-19 10:33:07
480
原创 论文精讲目录
ViT论文逐段精读【论文精读】 MoCo 论文逐段精读【论文精读】 对比学习论文综述【论文精读】 Swin Transformer论文精读【论文精读】 CLIP 论文逐段精读【论文精读】 双流网络论文逐段精读【论文精读】 I3D 论文精读【论文精读】 视频理解论文串讲(上)【论文精读】 视频理解论文串讲(下)【论文精读】 DETR 论文精读【论文精读】 DALL·E 2(内含扩散模型介绍)【论文精读】 ViLT 论文精读【论文精读】 CLIP 改进工作串讲(上)【论文精读·42】
2023-10-19 10:10:12
205
原创 逐字稿 | 8 视频理解论文串讲(上)【论文精读】2D 网络和一些双流网络以及它们的变体
总体框架那在作者分别回答完这三个问题之后,作者就提出了最后的这个总体框架,那从最底下来看,这就是 RGB 的输入,这就是光流的输入,然后就是下一帧的 RGB 输入,下一帧的光流输入。总之蓝色就代表的是空间流,绿色就代表的是时间流。然后针对每个图像或者说光流图像,我先分别用这两个网络去抽它的特征,那一旦抽取好特征之后,我就按照刚才第二个问题里说的,我再conv 5 那一层,我就先对这个时间流和这个空间流做一次 early Fusion。
2023-10-16 17:48:06
1001
原创 逐字稿 | 3 对比学习论文综述【论文精读】
来到了 Transformer 时代,这里我们会提到 MOCO V3 和Dino,因为 vision Transformer 的爆火,我感觉估计有一半儿的视觉的这个研究者都投入了 vision Transformer 的怀抱。所以说对于自监督学习来说,不论你是对比学习还是最新的掩码学习,大家接下来都是用 vision Transformer 去做的. 当然肯定还有很多其他优秀的工作了。鉴于时间关系,我们这里只是把最有联系的一些工作串到一起,讲讲一下它们的相似之处和不同之处。每篇论文我们也不会精
2023-10-13 18:04:36
758
原创 逐字稿 | 7 I3D 论文精读【论文精读】Quo Vadis, Action Recognition? A New Model and the Kinetics Datase
接下来我们就一起来精读这篇论文。我选的是最新的 ARCHIVE 版本,是 2018 年 2 月份最后一次更新的,作者上来现在摘要里说,因为这个目前的数据集都太小了,比如说 UCF 101 和 H M D B 51,他们分别有 101 个类别和 51 个类别,而且他们的这个视频数量对于 UCF 来说的话是 13000 个视频, HMDB 是 7000 多个视频,所以说是相当少的。那在这么小的数据集上就往往很难去发挥深度学习的这个威力。
2023-10-09 15:08:28
580
原创 逐字稿 | 5 CLIP 论文逐段精读【论文精读】
固定的提前定义好的物体类别集合,模型通过预测提前定义好的类别完成模型训练。这属于有限制性的监督信号,这也限制了模型本身的泛化性,尤其是要识别新类别物体的时候,就需要新的数据去训练新的模型。这个固定的提前定义好的这个标签集合怎么理解?
2023-10-05 16:43:17
1606
原创 AI快车道PaddleNLP系列直播课6|语义检索系统快速搭建落地
语义检索系统:不同于基于字面匹配检索,在语义层面的检索泛化效果更好。语义检索系统方案的一些问题:用什么架构?各模块用什么模型?模型如何调优?有多少训练数据?训练数据的形式?语义检索效果如何自动化评估?等PaddleNLP语义检索系统给出的回答:架构:recall+ranking,模型:ERNIE-Gram,千万级无监督语料
2022-02-07 12:40:59
1809
原创 AI快车道PaddleNLP系列直播课5|RocketQA:预训练时代的端到端问答
问答系统是信息检索系统的一种高级形式,旨在用准确简洁的自然语言回答用户自然语言提出的问题。 应用场景:搜索引擎、智能设备和智能客服。 分类:文本问答,知识库问答,表格问答和视频问答。 技术发展:规则方法、统计机器学习时代、深度学习方法。 预训练时代来了,端到端的系统可以做到全局优化,这种端到端问答系统一般是都是检索式问答,分为两阶段:先从语料库中检索候选段落,再阅读理解从候选段落中抽取候选答案。 本课围绕检索阶段
2022-02-05 02:18:21
1800
原创 XLNet:运行机制及和Bert的异同比较 - 知乎
XLNet在自回归语言模型中,通过PLM引入了双向语言模型。也就是在预训练阶段,采用attention掩码的机制,通过对句子中单词的排列组合,把一部分下文单词排到上文位置。 PLM预训练目标、更多更高质量的预训练数据,transformerXL的主要思想。这就是XLNet的三个主要改进点,这使XLNet相比bert在生成类任务上有明显优势,对于长文档输入的nlp任务也会更有优势。
2022-02-01 17:32:40
2594
原创 NLP中的预训练技术是如何一步步的发展到BERT的
ELMo通过上下文动态调整wordembedding解决了多义词问题,但LSTM的特征抽取能力远不如transformer。且拼接方式双向融合的特征融合能力弱GPT用上了transformer特征抽取能力增强,但是采用单向语言模型,只通过上文进行预测BERT,transformer+双向语言模型+更大规模数据。BERT的效果:在11个各种类型的NLP任务中达到目前最好的效果,有些任务性能有极大提升引入先验的语言学知识,对数据有限的任务很重要,两阶段模式是很好的解决方法
2022-01-28 22:48:57
608
原创 AI快车道PaddleNLP系列直播课4|文本生成任务的高性能加速
1 文本生成介绍本课是文本到文本的生成,机器翻译为例介绍整个的优化工作QPS:每秒处理句子的速度2 transformer性能瓶颈分析和优化self-attention的实现在pp中调用了20个左右的基本算子3 PaddleNLP机器翻译应用示例...
2022-01-28 16:56:01
1726
1
原创 对比学习视角重新审视推荐系统
对比学习可以说是自监督版本的度量学习,最大的的特点是自监督的,也就是自动构造正例的方法。SimCLR是对比学习的典型例子(对比损失函数InfoNCE来驱动达成对比学习的目标:正例拉近,负例推远) 容易发生模型坍塌的模型是不好的对比学习系统(SimCLR的防坍塌方法:随机负例,负例越多效果越好),好的对比学习系统应兼顾:alignment和uniformity,前者是希望相似正例在投影空间有相近的编码,后者是希望所有实例映射到投影空间之后分布尽可能均匀(希望实例对应的embedding可以保留更多的个性化信
2022-01-21 23:48:40
2208
原创 AI快车道PaddleNLP系列直播课3|自然语言处理中的小样本学习
一、小样本学习FSL背景介绍1.1 定义Few-shot learning旨在通过少量样本学习泛化能力强的模型 怎么算少?每个类下仅有4/8/16个训练样本1.2 小样本学习为什么重要标准的监督机器学习中所需要的标注数据量是非常大的,一般都要成千上万的规模。但是对人类来说,人类是通过少量的样本学习的。专业知识才能标注,成本也非常高;冷启动:在没有用户数据的时候如何推荐,试探性的推荐然后根据反馈来进一步推荐;新药发现:需要做实验,需要专业性,成本高。如果能做到小样本学习..
2022-01-21 18:46:40
1923
原创 AI快车道PaddleNLP系列直播课2|开箱即用的产业级NLP开发库
一、PaddleNLP飞桨自然语言开发库:API可直接调用,丰富的模型库,产业级预置任务Taskflow二、PaddleNLP Taskflow2.1 目标和意义taskflow旨在提供开箱即用(一行代码就可以调用)的NLP预置任务能力,在中文场景上提供产业级的效果与极致的预测性能。2.2 taskflow架构如图,taskflow架构由三部分组成,设计了一个auto splitter的模块来支持任意长度文本输入不用担心文本截断;fast tokenizer模...
2022-01-18 12:01:53
1142
原创 AI快车道PaddleNLP系列直播课1|PaddleNLP助力万方优化搜索匹配
目录一、搜索场景中的技术难点二、技术选型与方案实施2.1 相关性的两个维度2.2 文本相关性2.3 词向量模型2.4bert不能用2.5选择了表示模型和交互模型2.6 sentencebert三、无监督数据使用&模型训练&优化&评估3.1 只有大规模无监督数据怎么办?3.2 PaddleNLP检索场景解决方案3.3 SimCSE四、模型优化4.1 模型性能优化4.2 模型层数12压缩到6层&动态图转静态图(训...
2022-01-17 18:28:57
950
原创 AI快车道PaddleNLP系列直播课7|细粒度情感分析实战NLP|文本情感分类
情感分析旨在让机器具备像人一样的情感理解和表达能力。应用案例:国美评论智能分析平台SKEP:情感知识增强的预训练模型,传统预训练主要适用事实型文本,倾向于捕捉事实性语义,情感分析更关注文本中蕴含的情感和观点,有必要专门训练情感语义表示模型
2022-01-15 12:53:41
2085
1
原创 从github上下载项目需要注意的地方
运行不起来下载的项目 文档介绍要详细:一步一步告诉你怎么做 配置不同可能是运行不了的原因 如果不了解技术最好不要运行,没法定位错误 有问题可以看看issue 部署方法: 下载项目 创建数据库,导入sql脚本 修改各种各样的配置文件 配置Tomcat或者直接运行 笨办法:如果实在运行不起来,可以直接自己重新创建一个空的新项目,然后把内容复制进去...
2021-09-03 10:38:36
439
1
原创 git 码云 pycharm配置拉取项目
git官网下载太慢https://npm.taobao.org/mirrors/git-for-windows/git安装步骤https://blog.youkuaiyun.com/sanxd/article/details/82624127pycharm导入码云代码使用码云的用户名登录之后成功拉取项目!
2021-09-03 10:37:49
510
原创 文字风格迁移
文章目录文字风格转换cycle GAN做法文字与语音和图像有所不同,不能合并做梯度下降和梯度上升了(不能微分)无法微分问题的解决方法:ScratchGAN:把各式各样用RL训练生成器的tips都试了一遍更多的转换举例:文字的starGAN:style transformer语音风格转换:男声变女声文字风格转换cycle GAN做法通常正负面的句子不成对出现,所以使用无监督学习的方法要做这个任务:Cycle GAN训练一个discriminator识别器看很多正面的句子,学到识别正面的句子
2021-07-30 23:25:50
1276
1
原创 Bag of Tricks for Efficient Text Classification(FastText)
文章目录摘要介绍FastText核心思想模型结构Hierarchical softmaxN-gram features实验任务一 sentiment analysis任务二 tag prediction总结 fasttext词向量优势摘要本文提出了一种简单有效的文本分类和表示学习方法。实验表明fasttext在准确性方面与深度学习分类器保持一致,并且训练和评估的速度大大提高。可以在不到10分钟的时间内使用标准的多核CPU对超过10亿个单词进行快速文本训练,并在不到一分钟的时间内对312K类中的50万个
2021-07-30 21:12:20
965
原创 【二】BERT and its family
过去都是一个任务一个模型,现在逐渐迈向先让机器了解人类语言然后再做各式各样的任务 常见做法是:1、pre-train:先用大量无标记数据,训练一个能读懂人类语言的模型2、fine-tune:使用少量有标记资料去微调模型,去解各种NLP任务一、可以读人类语言的预训练模型长什么样,可以做什么事预训练模型:希望把输入的每一个token表示成一个embedding vector,这个vector包含token的语义,含义相近的token会有相近的em...
2021-07-26 23:08:51
473
2
原创 【一】NLP简介
一、根据输入输出的不同组合,NLP任务类别如下横向:输入 纵向:输出二、词性标注预处理part-of-speech(POS)taggingPOS tagging的模型,给句子中的每一个词标注词性 然后把词性的信息与文字绑定之后,放在下游任务中使用,帮助分辨一词多义的问题假如下游任务的模型有做POS tagging的能力,也可以不提前做预处理三、中文分词预处理word segmentation中文需要词汇分隔,英文是不需要的 模型会做二元分类,决定每个字是否是...
2021-07-25 12:32:38
1197
原创 【七-2】终身学习 Life Long Learning - catasrophic forgetting
娱乐圈太乱了,吃瓜都有点疲劳,其实我的态度是谴责的,但我不觉得非常愤怒,什么样的人都有,垃圾回到垃圾桶去就好老师突然说要学终身学习,想着其实把李宏毅老师的课完整学下来,其实就具备了看懂论文的能力新裤子乐队的歌听得我还可以再学一个小时(最多了),自律真的是一件反人类的事情。因为最近在认真的做笔记,csdn的编辑器一言难尽... ,不要偷懒把序号标好,逻辑和层次都清清楚楚了 nice ~我其实没有思考过为什么人工智能还没有变成天网,学了...
2021-07-19 23:13:05
963
原创 【七-1】终身学习 Life Long Learning-为什么今天的人工智能不能成为天网?catasrophic forgetting
一、LLL:一直用同一个模型学习各种技能二、LLL的实际应用模型上线后可以取得用户的反馈,不断更新模型参数三、LLL的难点在哪里:灾难性遗忘catasrophic forgetting1、影像辨识例:3层50个神经元,手写数字识别:任务1有杂讯,任务2没有a、分开学任务1、2在任务1上学完后准确率90%,没看过任务2的情况下准确率96%,得到的模型参数不变(同一模型)继续学习任务2来更新参数,任务2的准确率提高了,但是机器忘了怎么做任务1了b、同时学两个任务:两个任.
2021-07-19 17:18:30
520
原创 2021-07-17bert选修补充
过去NLP任务通常是一个任务一个模型,现在已经迈向,希望机器先总体了解人类语言以后再去解决各种NLP任务(先预训练一个模型,然后微调之后用在不同的任务上)pre-train:让机器解某个任务之前先训练一下。今天NLP领域的常见做法是:训练一个模型,模型是根据大量的文字(无标记,直接爬取的文字)训练出来的,它可以读懂人类文字 什么叫读懂?接下来针对要解决的任务,可以收集部分少量的资料,对模型进行微调fine-tune,让机器来解决不同的任务(不同的针对性资料对模型...
2021-07-17 12:07:01
381
3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人