人工智能研究所
头条 人工智能研究所 ,计算机视觉,NLP
展开
-
本地安装llama-3大模型,无需联网即可跟AI大模型聊天
Llama 3是Meta AI开源的第三代Llama系列模型,其新的 8B 和 70B 参数 Llama 3 模型在Llama 2的基础上,实现了更大性能的提升。由于预训练和训练后的技术改进,其Llama 3模型是当今 8B 和 70B 参数规模的最佳模型。Llama 3模型的改进大大降低了错误拒绝率,改善了一致性,并增加了模型响应的多样性。Llama 3模型在推理、代码生成和指令跟踪等功能也得到了极大的改善。而未来更大的4000亿参数大模型还在继续训练中。其Llama 3大模型可以直接在Meta AI官网原创 2024-05-11 10:18:10 · 216 阅读 · 0 评论 -
使用LobeChat打造属于自己的聊天机器人界面——可本地运行部署
当然我们可以使用cmd终端窗口里面跟llama2大模型进行沟通交流,但是其界面只有一个黑色的框,并不美观。本期我们就介绍一下Lobe Chat,一个漂亮的UI可视化界面。原创 2024-04-03 12:30:00 · 732 阅读 · 0 评论 -
OpenAI Translator,无需任何代码,就可以在本地运行大模型
OpenAI Translator从名字可以看出来,这个可视化界面程序是一个基于OpenAI的ChatGPT开发的一款翻译软件,但是随着软件的不断升级迭代,其软件不仅可以直接ChatGPT,还可以使用其他开源的大模型。原创 2024-03-13 12:15:00 · 455 阅读 · 0 评论 -
Google发布开源Gemma LLM大语言模型,效果超越LIama-2
Gemma是Google开源的第一个大语言模型,其有了Gemini大模型的经验,开源的Gemma大语言模型,其性能在很多数据集上面远远超越了LIama-2大模型。Gemma采用了Gemini 模型相同的研究和技术。 除了模型权重之外,Google还发布了工具来支持开发人员创新、使用 Gemma 模型。原创 2024-02-26 09:17:58 · 175 阅读 · 0 评论 -
Mistral AI社区发布SMoE混合专家模型Mixtral 8x7B性能超越ChatGPT
Mistral AI社区发布了Mixtral 8x7B混合专家模型。这是一种具有开放权重的高质量稀疏专家混合模型 (SMoE)。 根据 Apache 2.0 许可。 Mixtral 在大多数基准测试中都优于 Llama 2 70B模型,推理速度提高了 6 倍。 特别是,它在大多数标准基准测试中优于 GPT3.5。原创 2024-01-23 18:29:49 · 137 阅读 · 0 评论 -
Mamba线性时间序列框架超越Transformer模型?注意力机制如何翻身
是否Mamba未来会代替transformer,这个问题其实需要看不同的任务,也需要看不同的数据集,毕竟transformer模型以及统一了很多模型框架,包含NLP任务,CV计算机视觉任务,时间序列任务,基因工程等相关任务都是transformer相关模型框架,其大名鼎鼎的ChatGPT也是transformer模型。Mamba模型采用门控MLP单元,并与归一化残差连接组成新的Mamba基础模型,并使用此模型搭建整体的Mamba模型,整个模型框架并未采用transformer模型的注意力机制。原创 2023-12-25 18:05:48 · 1604 阅读 · 0 评论 -
使用python免费调用Google发布的Gemini双子座大模型API
上期文章,我们介绍了google发布的Gemini双子座大模型,现在google开放了gemini-pro与gemini-pro- vision2个版本的API接口。原创 2023-12-21 07:47:23 · 1474 阅读 · 0 评论 -
Meta开源支持1000多种语言的文本转语音与语音识别大语言模型
如何让全球的人获益,把大语言模型扩展到更多的语言上,一直是大语言模型研究的重点。然后我们需要根据识别的语言,选择自己需要进行文本合成的语言,其模型支持的语言可以参考文章末尾链接,这里需要根据自己的文本,修改一下第14行代码,这里只需要填写ISO693-3的代码编号即可。这表明,与当前最好的语音模型相比,此模型的表现特别出色。尝试了一下此开源模型,其英文的效果还是很好的,但是对中文的支持并不多,且支持的文本转语音模型中,普通话并不支持TTS文本转语音,但是一些广东话,闽南语还是支持的,可以自行尝试。原创 2023-11-14 22:33:24 · 516 阅读 · 0 评论 -
NVIDIA基于Code Llama发布在线版本Llama,人人可以免费使用
进入体验界面后,需要等待一会来加载Code Llama,等待Code Llama加载完成后,就可以愉快的跟Code Llama聊天了,但是Code Llama作为一个code大模型,主要来处理code方面的信息,不适合进行类似ChatGPT的NLP任务。其中文解析部分,2个问答的答案完全一样,无论如何,有了NVIDIA免费的code LIama,我们无需使用自己的电脑进行配置code LIama模型,针对普通使用者,这个网站完全够用了,且生产的代码质量可以跟ChatGPT抗衡。比如同样的一个问题。原创 2023-10-16 11:42:57 · 317 阅读 · 0 评论 -
基于transformer一步一步训练一个多标签文本分类的BERT模型
通过以上的代码,我们就使用了Bert模型的预训练模型训练了一个文本多标签分类任务模型,Bert模型当然也可以进行其他文本相关的任务,比如mask完形填空,预测下一个句子等等,这些模型的训练都可以基于Bert的预训练模型进行微调。而正是Bert模型无监督学习方式来进行模型的预训练,大大提高了模型的泛化能力,从而使transformer预训练成为了可能。以上搭建了一个Bert的预训练模型,我们可以根据自己的数据集进行训练,运行以上代码,模型会自动加载相关数据集进行训练,训练完成后,我们就可以进行模型的使用了。原创 2023-09-25 18:22:01 · 288 阅读 · 0 评论 -
清华开源LLM中英双语对话语言模型ChatGLM2,效果能赶超ChatGPT?
我们可以直接在IDE里面来体验。CodeGeeX 的编程能力,其CodeGeeX 支持代码自动生成与代码补全,也可以根据代码进行相关代码的翻译,并可以自动添加注释,程序员再也不用担心自己不 愿意写代码注释了,当然遇到任何问题,可以直接问CodeGeeX。当然作为一个大模型,其代码能力是很多人关注的焦点,其团队基于ChatGLM2模型加入了代码预训练的能力,全面提示代码能力,特开源了代码编程模型CodeGeeX2,我们可以直接使用代码来使用。关于相关的问题,我们可以直接修改如下代码中的文字即可。原创 2023-09-09 11:10:51 · 261 阅读 · 0 评论 -
Meta发布多模态模型SeamlessM4T——可无缝翻译和转录语音和文本
SeamlessM4T——大规模多语言和多模态机器翻译——一个支持语音到语音翻译、语音到文本翻译、文本到语音翻译、文本到文本翻译的单一模型,以及多达 100 种语言的自动语音识别的多模态模型。在以往的机器翻译上,人类一直是使用类似查表的方式,很多年前的机器翻译直接是另外一个语言对应另外一个语言的单词进行生生的对应,使用机器翻译的文字,大家一看便是机器翻译的。我们可以根据界面提示的内容,选择自己需要的任务,无论音识别、语音转文本、语音转语音、文本转语音和文本转语音,机器翻译等方面,我们都可以在线试玩。原创 2023-09-05 19:13:53 · 521 阅读 · 0 评论 -
Meta发布AIGC生成式人工智能模型来生成音乐与音效——AudioCraft
近年来,包括语言模型在内的生成式人工智能模型取得了巨大进步,特别是ChatGPT的发布,让大家看到了大语言模型的魅力。模型下载完成后,我们就可以使用model.generate函数来生成音乐了,这里可以一次输入多个文本,模型会自动根据输入的文本,生成多个音频文件,最后,我们可以display或者下载生成好的音乐文件。我们可以直接使用以上代码生成一个可视化的UI界面,我们只需要在输入框中,输入相应的文本,就可以利用模型生成音乐了。AudioGen 使用公共音效进行训练,根据用户输入的文本生成音频音效。原创 2023-08-30 18:23:41 · 236 阅读 · 0 评论 -
ViLT:基于transformer模型的计算机视觉与自然语言处理多模态模型
可以从模型框图上,我们可以看到ViLT把文本使用word embedding进行数据的特征转换,并加上位置编码传递给transformer模型的encoder编码器进行特征提取,图片部分使用VIT模型的patch embedding,并添加位置编码,最后同样传递给transformer模型的encoder编码器进行注意力机制的计算。成功下载完所有的配置文件,预训练模型等配置,模型进行图片的识别,并进行输入语句的解析,并最后给出结论,这里模型成功识别出了图片中的cat,并得到了cat的数量。原创 2023-08-07 18:07:38 · 278 阅读 · 0 评论 -
Meta开源Llama 2免费大语言模型,媲美ChatGPT,可在线试玩
我们只需要进入hugging face的界面,就可以在demo界面进行体验,而且完全是免费的,不用我们注册账号,便可以拥有一个免费的聊天机器人,这里我们尝试使用了中文与英文,模型都会支持,但是有时候返回的信息是英文的,这里就跟ChatGPT有点距离,但是毕竟是免费开源的,且是Meta这么大公司开源的大语言模型,其效果也是杠杠的,虽然有些瑕疵,但是完全符合我们的需求了。Llama 2是Llama 1模型的升级版本,引入了一系列预训练和微调 LLM,参数量范围从7B到70B (7B、13B、70B)。原创 2023-08-03 18:24:59 · 263 阅读 · 0 评论 -
基于transformer的BERT模型来做完形填空,直接无敌了
屏蔽语言建模 (MLM):取一个句子,模型随机屏蔽输入中 15% 的单词,然后通过模型运行训练,并预测屏蔽的单词。首先我们从transformers库中导入pipeline,并使用pipeline建立一个大语言模型,此模型基于BERT训练好的bert-large-uncased模型,代码运行时会自动下载相关预训练模型。同样的一句话,我们让模型进行中文的预测,可以看到,其准确度大大降低了,且结果并不是很好,毕竟一个英文模型来进行中文的训练与预测还需要符合中文的一些逻辑。原创 2023-07-17 11:30:00 · 300 阅读 · 0 评论 -
基于transformer模型的对象检测算法——BETR模型
transformer模型是google在attention is all you need论文中提出的一个应用于NLP领域的模型,但是随着VIT模型的发布,把transformer模型应用到计算机视觉任务上成为了可能,本期介绍的DETR模型就是基于transformer模型与CNN卷积神经网络的结合打造出的一个对象检测模型,从对象检测的结果来看,其使用transformer模型的对象检测方案,也能跟CNN卷积神经网络媲美。以上初始化的工作完成后,我们就可以搭建我们的BETR模型了。原创 2023-07-10 12:00:00 · 1077 阅读 · 0 评论 -
SadTalker AI模型使用一张图片与一段音频便可以自动生成视频
SadTalker模型是一个使用图片与音频文件自动合成人物说话动画的开源模型,我们自己给模型一张图片以及一段音频文件,模型会根据音频文件把传递的图片进行人脸的相应动作,比如张嘴,眨眼,移动头部等动作。然后就可以git sadtalker的工程目录,并安装相应的第三方库,这里主要是torch相关的库,这里为了合成音频的方便,我们同样可以安装TTS来进行音频的合成。模型不仅可以模仿人类说话,还可以进行唱歌。当然下载的预训练模型需要放置在checkpoints目录下,以上所有的操作完成后,我们就可以运行模型了。原创 2023-06-26 10:00:00 · 2366 阅读 · 0 评论 -
NLP领域的transformer模型竟然也可以使用到计算机视觉任务上?
hugging face的transformers模型集成了很多对象检测的模型,当然还有NLP领域的模型,本次使用的是DETR模型,由于transformers模型的高度集成,我们对DETR模型的代码并没有详细了解,下期我们会详细分享DETR模型的代码实现过程。上成为了可能,本期介绍的DETR模型就是基于transformer模型与CNN卷积神经网络的结合打造出的一个对象检测模型,从对象检测的结果来看,其使用transformer模型的对象检测方案,也能跟CNN卷积神经网络媲美。上期图文教程,我们分享了。原创 2023-06-17 11:30:00 · 154 阅读 · 0 评论 -
使用Transformer模型进行计算机视觉任务的端对端对象检测
然后根据标准Transformer模型的编码器与解码器进行注意力机制的计算,最后把计算后的数据进行图片对象的分类,并根据检测到的位置信息,提供对象box区域,方便我们画图。例如,模型可能会查看图像的其他区域,以帮助对边界框中的对象做出检测。既然是Facebook发布的模型,那么其首当其冲的便是使用pytorch框架来实现,且pytorch模型的TorchHub已经集成了此模型,我们可以直接使用TorchHub模型来实现本期代码,当然若想了解DETR模型的框架,当然最好是源代码来实现,这个我们后期进行分享。原创 2023-06-05 14:15:00 · 567 阅读 · 0 评论 -
hugging face开源的transformers模型可快速搭建图片分类任务
Vision Transformer完全copy了标准的Transformer模型框架,只是在计算机视觉任务中,VIT模型只是使用了标准Transformer模型的编码器部分,从VIT模型的框架可以看出,其模型的编码器部分跟标准Transformer模型一致,只是在进行注意力机制的计算时,VIT采用了12层的结构,而标准的Transformer模型采用的是6层的结构,但是光看一层的模型结构,其2个模型的结构是一致的,毕竟官方想使用Transformer模型进行模型大一统的工作,并不希望改模型结构。原创 2023-05-25 16:00:00 · 953 阅读 · 0 评论 -
开源的MiniGPT-4可以让你提前体验一下GPT-4的魅力
但就算付费,一些地区也无法进行相关服务的购买。GPT-4发布时,工程师一个手绘网页,传递给GPT-4时,模型会自动进行图片的识别,然后输出搭建整个网页的代码,强大的多模型模型吊足了大家的胃口。小编使用了同样的照片,同样的文字,来复现官方的HTML网页,模型生成的HTML网页只有js,没有css的部分,生成的网页有相关的文字,但是没有css的渲染,估计还需要各种调参。当然模型同样支持多轮对话讨论,虽然模型已经开源,但是运行此模型需要的电脑资源还是要求比较高的,怪不得ChatGPT类似的大模型,这么费经费。原创 2023-05-07 14:44:18 · 304 阅读 · 0 评论 -
stable diffusion AI精准绘图——ControlNet控件的安装与使用
搜索到controlnet模型库后,我们可以看到其中主要包含2个文件夹,一个models,一个annotator,当然里面包含了很多相关的模型,本期,我们重点介绍的是人体姿态,依次我们下载相关的open pose模型即可。模型运行完成后,便会重新生成一个带人体姿态检测的图片,前后对比可以看到,模型已经学习到了相关人体的姿态,并根据同样的prompt与人体姿态,重新生成了一个带人体姿态的,跟输入图片类似的图片。这里,我们点击controlnet控件,上传上面我们的人体姿态图片,勾选enable.原创 2023-05-02 13:49:35 · 917 阅读 · 0 评论 -
edge-tts微软文本转语音库,来听听这些语音是否很熟悉?
上期图文教程,我们分享了Azure机器学习的文本转语音的账号申请与API申请的详细步骤,也介绍了基于python3实现Azure机器学习文本转语音功能的代码实现过程,虽然我们可以使用Azure账号免费提供一年的试用期,但是毕竟是要付费的,我们的API也无法长期使用,好在微软发布了edge-tts库,此库继承了Azure的文本转语音功能,且是免费使用的,本期我们就介绍一下edge-tts的使用。原创 2023-04-06 07:29:59 · 2190 阅读 · 0 评论 -
Stable Diffusion加chilloutmixni真人图片生成模型,AI绘图杀疯了
Stable Diffusion是一种扩散模型,可以经过训练,使用文本进行图片的生成任务,很多基于Stable Diffusion模型的训练模型已经发布,最近比较火的便是chilloutmixni(一个真人图片生成模型)与lora模型(一种风格模型),2种模型可以搭配使用,由于Stable Diffusion模型开源的是源代码,针对普通非程序员,交互起来,不是很友好,这不,基于Stable Diffusion的UI可视化项目也同步开源,其中最著名的便是如下开源webUI。原创 2023-03-12 11:00:00 · 10944 阅读 · 5 评论 -
AI绘画stable diffusion webui汉化教程,参数解析以及界面介绍
在第五部分,便是一键生成图片的按键,我们设置完成以上参数的设置后,点击生成按键,便可以自动生成图片了,相关的图片会展示在第六部分区域,且图片保存在output文件夹中。,由于stable diffusion webui项目是英文项目,且里面涉及到很多设置与参数,这样针对stable diffusion webui项目的汉化操作就显得尤其重要了,本期,我们介绍一下stable diffusion webui的汉化操作与基础参数的含义。然后设置参数,就可以生成相关的精美图片了。原创 2023-03-29 11:28:17 · 1367 阅读 · 0 评论 -
使用python调用ChatGPT的API,打造属于自己的桌面智能助手
上期图文教程,我们介绍了ChatGPT的注册使用过程,并且使用ChatGPT生成了一个CNN卷积神经网络的代码,由于ChatGPT的官方只公布了GPT-3的API接口,因此我们基于ChatGPT 3代的API接口打造自己的智能小助手。因此有了以上的API接口,我们便可以使用python代码来使用ChatGPT了,只是API接口版本相比官方的3.5稍微有些落后,且官方还发布了plus版本,但是针对绝大多数问题,3代的接口依然很强大。第三行代码,我们需要提供上一个步骤的api key。原创 2023-02-24 17:29:42 · 3325 阅读 · 0 评论 -
基于python3实现Azure机器学习最接近人声的文本转语音功能
上期文章,我们介绍了如何使用Azure来创建一个语音服务API,哪里,我们得到了API的key,以及语音服务的基本信息,包含地区等,这些都是本期代码需要的参数,本期我们使用python代码来实现一下原创 2023-02-02 07:00:00 · 630 阅读 · 0 评论 -
Meta AI发布具有200种语言的高品质机器翻译人工智能模型
Meta AI所打造的NLLB-200是第一个能对200种不同语言提供先进质量翻译的单一人工智能(AI)模型。Meta AI也建立了全新的评价数据集FLORES-200,并衡量NLLB-200在每种语言中运作的成效,以确认能够提供高品质的翻译内容。相较于以前的先进技术水准,NLLB-200的平均质量高出44%。...原创 2022-08-17 12:00:00 · 1283 阅读 · 0 评论 -
听了那么多AI合成的语音,Azure机器学习的文本转语音最接近人声
名称为资源组的名称,定价层最好选择标准S0,当然也有免费的资源,但是免费的无法调长文本转语音API,这里重点强调一下,前期小编调试的时候就是选择了免费的(免费的针对短语音API),在进行长文本转语音时,一直报错。成功登录后,我们便进入了后台管理界面,这里,我们便可以创建自己的资源,当然,我们不仅可以创建文本转语音的资源,也可以创建其他方便,比如图片识别,语音识别等等AI 方面的资源,我们今天按照文本转语音为例。点击创建后,系统会自动进行资源的创建与部署,待部署完成后,就可以看到自己创建的资源了。原创 2022-09-04 06:30:00 · 757 阅读 · 0 评论 -
从聚类的角度重新审视 Mask Transformer
鉴于 k-means 聚类算法的流行,在 CMT-DeepLab 中,Google重新设计了交叉注意力,以便空间方面的softmax操作(即沿图像空间分辨率应用的 softmax 操作)在 kMaX-DeepLab 中,Google进一步将空间方式的 softmax 简化为集群方式的softmax(即,沿集群中心应用 softmax 操作)在 CMT-DeepLab 和 kMaX-DeepLab 中,Google从聚类的角度重新制定了交叉注意力机制,包括迭代聚类分配和聚类更新步骤。原创 2022-09-02 21:32:17 · 1206 阅读 · 0 评论 -
基于fasttext与langid文本语种识别的python代码实现
fasttext是一个进行文本分类,识别以及单词编码的文本操作库,我们可以使用fasttext进行单词的编码也是我们前期介绍transformer模型的embedding操作,我们可以通过fasttext来进行单词的word embedding操作。在Facebook发布fasttext之前,比较著名的语种识别库是langid,langid是一个小型的语种识别库,其模型只有2.5MB的大小,精度已经达到了91.3以上,虽然模型较小,但是功能确实是比较强大,且可以支持97种的文本语种检测。原创 2023-01-20 15:52:40 · 634 阅读 · 1 评论 -
通过7个版本的attention的变形,搞懂transformer多头注意力机制
我们可以考虑使用logits的方法来进行softmax操作,这样我们就得到了数据的交叉熵,softmax的错误输出,将会被反向传播,那么就跟我们以上得到的数据,经过softmax后,只存在一个数据为1的值,其他地方全部是0 ,那么数据为1的值会被神经网络反向传播,而其他地方的数据并不会得到训练,这样就产生了梯度消失的问题。为了直觉的理解注意力,我们从输入矩阵X与查询矩阵Q开始,我们来计算输入矩阵与查询矩阵的相似度,得到相似度分数后,我们将输入矩阵转换为输出向量,输出向量是输入矩阵的加权求和。原创 2022-10-23 20:17:04 · 1017 阅读 · 0 评论 -
通用Transformer模型与我们接触的attention is all you need有何区别
主要的新想法是,在每个循环步骤中,Universal Transformer对序列中所有输入数据使用self-attention,然后是一个跨所有位置和时间步共享的“转换函数”。多头注意力用于编码器自注意力(将前一个编码器层的输出作为输入)、解码器自注意力(将前一个解码器层的输出作为输入)和编码器-解码器注意力(使用最终的编码器的输出)V和K的值以及之前的解码器输出Q)在上图中,使用多头注意力的模型部分在左侧用红色框起来。Universal Transformer 的作者还指出,它是一个图灵模型。原创 2022-11-20 09:00:00 · 325 阅读 · 0 评论 -
动画详解Transformer模型注意力机制的概念与模型搭建
整个计算过程完全按照attention注意力机制的公式来计算,但是在NLP领域,我们输入模型的句子长度不完全一致,这就涉及到了pad mask矩阵,这也是为什么在多头注意力机制时,其transformer模型中的注意力是masked 的,因为我们需要把pad的地方mask掉,因此在做softmax前,我们需要添加mask,然后再进行softmax的计算,这样就避免pad的地方没有注意力。transformer模型第一个比较难理解的就是其位置编码了,位置编码作为NLP的时间维度,提供句子单词的位置信息。原创 2022-10-29 20:52:17 · 1022 阅读 · 0 评论 -
Pytorch一行代码便可以搭建整个transformer模型
当然,若我们直接来使用nn.Transformer函数来写我们的代码,我们对整个transformer的搭建与代码实现并不会理解很透彻,建议我们从原始代码函数,一个一个函数来写代码,这样,我们就可以对整个transformer模型了解的比较透彻,当我们对整个transformer模型了解完成后,当然可以直接来使用pytorch使用的此行代码来搭建我们的transformer模型,或者改写其他的模型代码,来优化整体代码量。同样的道理,pytorch也提供了decoder 层的函数。原创 2022-11-12 17:42:05 · 1920 阅读 · 0 评论