
AI应用
文章平均质量分 70
才能我浪费
这个作者很懒,什么都没留下…
展开
-
DINOv2: A Self-supervised Vision Transformer Model
作者指出:自然语言处理领域近期在大规模数据的模型预训练方面取得的突破为计算机视觉领域的类似基础模型铺平了道路。这些模型可以通过产生通用的视觉特征大大简化任何系统中图像的使用,即在不进行微调的情况下适用于图像分布和任务的特征。这也是本文的中心思想,即可以通过类似的方法来训练模型,生成一些通用的视觉特征,这些特征适用于不同的图像分布和不同的任务,无需进行进一步的微调即可使用。3. 动量更新:学生网络的输出通过带有动量的更新规则不断逼近教师网络的输出,实现自下而上的特征学习过程。动量可以平滑更新并加速学习。原创 2023-04-28 09:03:34 · 1437 阅读 · 0 评论 -
MiniGPT-4来了、脱胎于LLama、开源且好用
4,Tuning:最后作者收集了另外 3,500 个高质量对齐的图像文本对,使用设计的聊天模板进一步微调模型,以提高生成语言的自然性和可用性。2,在视觉感知方面:作者采用了与BLIP-2相同的预训练视觉组件,其中该组件由EVA-CLIP的ViT-G/14和Q-Former组成。3,整合:MiniGPT-4 添加了一个线性投影层,将编码的视觉特征与Vicuna语言模型对齐,冻结了所有视觉模型和语言模型参数。整体感觉效果不错,问题和现在的LLama一样,就是对中文支持还有待提高。原创 2023-04-28 09:03:00 · 402 阅读 · 0 评论 -
羊驼(LLama)的对手来了, Stability AI 推出了 StableLM
类似于ChatGPT的其他竞争对手,StableLM是基于Pile开源大数据来进行训练,数据来源包括维基百科、Stack Exchange和PubMed等等。据 Stability AI 表示,StableLM 模型可用的参数介于 30 亿至 70 亿之间,稍后还会推出介于 150 亿至 650 亿参数的模型。近期AI 生成图片公司 Stability AI 宣布释出开源大型语言模型(LLM)「StableLM」,并且已经在 GitHub 提供给开发人员使用。中文的问题回答几乎都是不知所云。原创 2023-04-28 09:02:16 · 185 阅读 · 0 评论 -
Anthropic Claude 试用感觉
不过综合能力还是ChatGPT强,不论回答的逻辑性还是编程等能力,例如让他们用Python写一个类似雷电的小游戏ChatGPT的直接跑起来了,而Anthropic Claude的还差点意思。试用了一下,感觉整体上比ChatGPT还是有点差距,不过,它的训练数据比GPT要新,所以最新的东西,可以回答出来,不像ChatGPT 2021年后的东西就不知道了。这说明Claude的数据已经很新了。总体我现在的结论是Anthropic Claude比ChatGPT还差点,不过差距不是那么大了。原创 2023-04-28 09:01:11 · 310 阅读 · 0 评论 -
ChatGPT的前置InstructGPT
另外,GPT-3虽然选择了少样本学习(few-shot)和继续坚持了GPT-2的无监督学习,但基于few-shot的效果,其稍逊于监督微调(fine-tuning)的方式。InstructGPT使用来自人类反馈的强化学习方案RLHF(reinforcementlearningfromhumanfeedback),通过对大语言模型进行微调,从而能够在参数减少的情况下,实现优于GPT-3的功能。具体来说,使用强化学习算法,将生成的指令和人类反馈作为训练数据,迭代训练模型,以最大化生成指令的奖励信号。原创 2023-04-28 09:00:15 · 183 阅读 · 0 评论 -
Meta:segment anything
令人惊讶的是,我们发现一个简单的设计可以满足所有三个约束条件:一个强大的图像编码器计算图像嵌入,一个提示编码器嵌入提示,然后两个信息源在一个轻量级的掩码解码器中进行组合以预测分割掩码。在自然语言处理领域,以及近年来的计算机视觉领域,基础模型是一种有前途的发展,通常可以通过“提示”技术实现对新数据集和任务的零样本和小样本学习。其次,我们发现在使用提示工程的零-shot转移协议下,在各种下游任务中,包括边缘检测、目标提议生成、实例分割以及文本到掩模预测的初步探索中,我们都获得了一致强劲的定量和定性结果。原创 2023-04-08 11:29:54 · 1886 阅读 · 0 评论 -
经典论文介绍:GPT的由来,Improving Language Understanding by Generative Pre-Training
GPT是一种基于生成式预训练的自然语言处理方法,它使用了单向的Transformer编码器,并通过自回归语言建模进行预训练。在具体应用时,可以使用fine-tuning技术将其应用于各种下游任务中。GPT的成功启发了许多后续的研究。原创 2023-04-12 09:58:52 · 1004 阅读 · 0 评论 -
Numpy处理图片方法
在进行图像领域的深度学习的时候经常需要对图片进行处理,包括图像的翻转,压缩,截取等,一般都是用Numpy来处理。处理起来也很方便。In[3]# 导入需要的包import numpy as npimport matplotlib.pyplot as pltfrom PIL import Image# 读入图片image = Image.open('./work/vehicl...原创 2020-01-18 08:26:20 · 9418 阅读 · 1 评论 -
PaddlePaddle动态图实现Resnet(眼底筛查为例)
本案例参考课程:百度架构师手把手教深度学习的内容。 主要目的为练习Resnet动态图的PaddlePaddle实现。本案例已经在AISTUDIO共享,链接为:https://aistudio.baidu.com/aistudio/projectdetail/244766数据集:查看数据集图片 iChallenge-PM中既有病理性近视患者的眼底图片,也有非病理性近视患者的图片,命名...原创 2020-01-13 07:02:29 · 7277 阅读 · 0 评论 -
建立自己的ChatGPT:LLama私有化部署及测试
以 Meta 开源 LLaMA(直译为「大羊驼」)系列模型为起点,斯坦福大学等机构的研究人员先后在其上进行「二创」,开源了基于 LLaMA 的 Alpaca(羊驼)、Alpaca-Lora、Luotuo(骆驼)等轻量级类 ChatGPT 模型,大大降低了这类模型的研究、应用门槛,训练、推理成本一再降低。随便选一个编译的解压(我用的llama-master-698f7b5-bin-win-avx2-x64.zip)并把模型文件放在同一个目录下。7B的与13B的类似,就不重复说了。原创 2023-04-08 11:26:27 · 12174 阅读 · 4 评论 -
第一届阿里巴巴大数据智能云上编程大赛优胜奖比赛攻略
这是一个2018年的比赛,大赛具体信息可以查看官网,比赛地址:https://tianchi.aliyun.com/competition/entrance/231669/introduction我独自组队参加比赛,获得了第一赛季Rank1,第二赛季Rank3,第三赛季Rank4,决赛优胜奖的成绩。以下是我的参赛方案。转存失败重新上传取消转存失败重新上传取消转存失败重新上传取消...原创 2020-04-15 14:30:58 · 668 阅读 · 0 评论 -
经典论文学习:BERT Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT (Bidirectional Encoder Representations from Transformers)是一种基于Transformer模型的预训练语言模型,由Google在2018年提出。相比于之前的语言模型,BERT引入了双向预训练机制,并在多个自然语言处理任务中取得了极高的性能。BERT的预训练分为两个阶段:Masked Language Model (MLM)和Next Sentence Prediction (NSP)。原创 2023-04-12 09:57:38 · 199 阅读 · 0 评论 -
从GPT-1到ChatGPT及最新的GPT-4,GPT系列技术的发展过程
GPT-3:GPT-3 是 OpenAI 在 2020 年发布的预训练模型,采用了更大的规模和更多的技术创新,包含了 175B 个参数。GPT-3 在生成文本、问答、翻译、摘要和对话等任务上都取得了非常好的表现。应用场景的不断扩展:从 GPT-1 的文本生成到 ChatGPT 的对话任务,GPT 系列模型在应用场景的不断扩展中,不断拓展了模型的应用范围。模型规模的不断增大:从 GPT-1 的 117M 到 GPT-3 的 175B,模型规模不断增大,使得模型可以处理更复杂的自然语言任务。原创 2023-04-12 10:02:07 · 2499 阅读 · 0 评论 -
经典论文学习:Attention Is All You Need(Transformer)
Transformer模型通过引入自注意力机制和多头注意力机制来替代传统的循环神经网络和卷积神经网络,从而提高了模型的表现。同时,Transformer模型还采用了分头处理和残差连接等技术,进一步提高了模型的效率和表现。该模型在机器翻译等任务中取得了极高的性能,成为自然语言处理领域的经典模型之一。原创 2023-04-08 12:15:57 · 2110 阅读 · 0 评论 -
PaddlePaddle动态图实现VGG(眼底筛查为例)
本案例参考课程:百度架构师手把手教深度学习的内容。 主要目的为练习vgg动态图的PaddlePaddle实现。本案例已经在AISTUDIO共享,链接为:https://aistudio.baidu.com/aistudio/projectdetail/244766数据集iChallenge-PM:数据集图片 iChallenge-PM中既有病理性近视患者的眼底图片,也有非病理性近视...原创 2020-01-13 06:50:03 · 2341 阅读 · 1 评论 -
我的天池比赛经验
我17年开始参加天池大赛,玩天池一半是为了练习机器学习,一半是消遣。因为工作、家庭的事情都很多,时间很难保证,为了不坑队友,所以到现在比赛都是SOLO,自娱自乐。因为可用时间少,又是一个人SOLO,所以闭门造车、走到沟里出不来也都是常有的事。第一个比赛是IJCAI-17 口碑商家客流量预测,那个时候刚好看了时序的一些东西,觉得R语言的Auto.Arima很不错,于是就把R语言关于时序的包都调了...原创 2020-01-16 13:53:20 · 1119 阅读 · 0 评论 -
GPT vs Bert
GPT和BERT的输入顺序不同:GPT是从左到右的单向模型,它只能在当前位置之前看到的上下文信息,而BERT是一种双向模型,它可以同时看到前面和后面的文本信息。GPT和BERT的训练数据不同:GPT使用了更广泛的训练数据,包括维基百科和网页文本,而BERT则使用了更多的语言任务,如问答和阅读理解。GPT和BERT的任务不同:GPT是一种基于语言模型的生成式模型,可以生成类似人类写作的文本,而BERT则是一种基于双向编码的预训练模型,可以用于许多NLP任务,如分类、命名实体识别和句子关系判断等。原创 2023-04-12 09:58:16 · 8274 阅读 · 0 评论 -
Meta Segment Anything 测试效果
测试网址:界面很简单,使用Meta提供的图片:点击要分割的位置即可,也可以自己上传图片进行分割:有的图片可能需要多点几次,然后选择:即可生成结果在上面点击右键,选择图片另存为,就可以保存了,这是一些切割的效果:感觉效果非常不错。原创 2023-04-08 11:25:15 · 407 阅读 · 0 评论 -
第二届阿里巴巴大数据智能云上编程大赛亚军比赛攻略
这是一个2019年的比赛,具体情况参见比赛的主页:https://tianchi.aliyun.com/competition/entrance/231728/introduction我参加了这个比赛,并获得了亚军,以下是我的比赛方案:版权声明:本文内容由互联网用户自发贡献,版权归作者所有,本社区不拥有所有权,也不承担相关法律责任。如...原创 2020-05-16 13:56:55 · 459 阅读 · 1 评论 -
ChatGPT,GPT-4会让大家失业么? OpenAI自己的报告来了。
从现有的chatGPT所展现出的能力来看,需要写作相关能力的如营销文案策划,需要主动倾听能力的如心理咨询,需要交流能力的如客服等职业都会受到剧烈的冲击。报告里评测了受大模型所影响的职业和职业人口的相关关系,无论是人工评测还是GPT4模型评测,受影响的深浅程度与就业人口的多寡总体来说有联系,但影响不太直观。算法认为如果考虑到当前的大模型的能力和可能营造的生态来说,至少50%的工作有百分之五十以上的工作内容,会在引入AI大模型后缩减至少一半的工作时间。总体来看,薪酬更高的职业受大模型及其相关生态的影响更大。原创 2023-04-12 10:04:04 · 356 阅读 · 0 评论 -
HugingGPT 模型整合,贾维斯来了
通过利用ChatGPT强大的语言能力和丰富的人工智能模型库Huggingface,HuggingGPT能够在不同的模式和领域,并在语言、视觉和语言方面取得了令人印象深刻的成果,演讲和其他具有挑战性的任务,为高级学习铺平了新的道路人工智能。为了促使大型语言模型进行有效的任务规划,HuggingGPT 在其提示设计中采用了基于规范的指令和基于演示的解析。在ChatGP和专家模型的配合下,HuggingGPT可以解决语言、图像、音频和视频等多种模式的任务,包含了检测、生成、分类和问题回答等多种形式的任务。原创 2023-04-12 10:03:17 · 299 阅读 · 0 评论 -
如何让ChatGPT显示图片,连续找图
ChatGPT免费版是不能够显示图片的,如果你让它帮你画一张图,它就会告诉你它做不到。不过我们动动脑筋还是有办法的,可以结合markdown和一些图片查找/生成网站,利用ChatGPT实现图片查找、显示功能。如果想让它一次性帮你发一堆关于某个主题的书,就可以ChatGPT扮演作者,而你是编辑就可以了。原创 2023-04-12 10:05:24 · 7576 阅读 · 1 评论 -
当倚天剑遇到屠龙刀 VQGAN-CLIP 介绍
具体地说,VQGAN-CLIP 使用 CLIP 的编码器来将文本描述编码为一个向量表示,并将该向量传递给 VQGAN 的解码器,以生成相应的图像。在 VQGAN-CLIP 中,CLIP 的编码器被用来将文本描述编码为一个向量表示,并将该向量传递给 VQGAN 的解码器,以生成相应的图像。总的来说,VQGAN-CLIP 是一种高度灵活且强大的生成模型,它可以根据输入的文本描述生成与之相符的图像,具有广泛的应用前景,例如虚拟现实、游戏开发、艺术创作等领域。量化损失用于优化生成器和量化器,以生成更逼真的图像。原创 2023-04-12 10:01:57 · 559 阅读 · 0 评论 -
VQGAN(Vector Quantized Generative Adversarial Network)模型简介
为了训练 VQGAN 模型,需要使用大量的图像数据集和一些预处理技术,如数据增强和图像裁剪等。在训练过程中,VQGAN 模型会优化两个损失函数:一个用于量化误差(即离散化向量和连续值之间的误差),另一个用于生成器和判别器之间的对抗损失。在实际应用中,VQGAN 可以用于许多有趣的任务,如从文本生成图像、从图像生成文本、图像到图像的翻译、图像编辑、风格迁移等。总的来说,VQGAN 通过使用 VQ 技术和 GAN 结构,以及多尺度架构和条件生成等技术,实现了高质量的图像生成。原创 2023-04-12 10:01:21 · 7894 阅读 · 1 评论 -
图文匹配:Clip模型介绍
与以往的图像分类模型不同,Clip并没有使用大规模的标注图像数据集来进行训练,而是通过自监督学习的方式从未标注的图像和文本数据中进行预训练,使得模型能够理解图像和文本之间的语义联系。CLIP使用了一种对比学习的方式,在4亿图文对上进行了文本和图片的匹配任务训练,使得该模型在无任何微调的情况下(zero-shot),在imageNet上取得了和ResNet-50微调后一样的效果。Clip模型的一个重要应用是图像分类,它可以将输入的图像和文本信息进行匹配,从而识别图像的内容。原创 2023-04-12 10:03:17 · 1272 阅读 · 0 评论