
人工智能
文章平均质量分 78
包含了强化学习、NLP、CV、多模态、大模型等内容
王大丫丫
少壮不努力,老大徒伤悲。
深度学习、人工智能、大模型、多模态
展开
-
中秋元素之文搜图
临近佳节,也要努力学习哦。大家都知道中秋有很多节日元素,像等,为了能够准确地找出语义相关的图片,本文构建了一个简易的双塔深度学习模型,使用自然语言来搜索相关的图像。该模型地主要架构思路是,将图像及其文本内容的表示投影到相同的嵌入空间中,使得文本嵌入在所描述的图像的嵌入附近,最后通过计算向量相似度返回topk个图片即可。原创 2025-06-06 09:16:50 · 430 阅读 · 0 评论 -
Transformer 实现图像标注
在本文中,我们使用的数据集是Flickr8k,它包含了 8000 张不同主题的图像,每张图像有 5 个不同的文本描述。原创 2025-06-06 09:15:53 · 381 阅读 · 0 评论 -
Pycharm 连接 WSL 中安装的 tensorflow-2.12.0
tensorflow > 2.10 的 cpu 和 gpu 版本不进行区分,里面既有 cpu 版本又有 gpu 和 tpu 版本,所以只需要简单装一个 tensorflow 即可,但是想在 window 中使用 tensorflow>2.10 的 gpu 版本必须要在 wsl 环境下进行环境的搭建,同时为了开发方便,使用 pycharm 专业版配置连接 wsl 环境中的虚拟环境即可。原创 2025-03-31 12:01:06 · 980 阅读 · 0 评论 -
单机多卡分布式训练策略——MirroredStrategy
训练开始前,该策略在 N 个 GPU 上各复制一份完整的模型备份;每次训练传入一个 batch 的数据,将数据分成 N 份,分别传入 N 个计算设备(即数据并行);N 个计算设备在自己的内存中分别计算自己所获得数据的模型梯度;使用分布式计算的All-reduce操作,在所有 GPU 间高效交换梯度数据并进行求和,使得最终每个设备都有了所有设备的梯度之和;使用梯度求和的结果更新各个 GPU 中的模型权重;因为该策略是同步的,所以只有当所有设备均更新模型后,才进入下一轮训练。原创 2025-03-31 11:32:10 · 552 阅读 · 0 评论 -
使用 Transformer 完成 IMDB 情感分类任务
本文使用简单的 Transformer Block 实现对影评文本数据 IMDB 的情感分类任务。原创 2025-03-25 09:11:07 · 463 阅读 · 0 评论 -
使用一维卷积完成时序数据的分类
本文主要使用一维的卷积神经网络完成时序数据的分类任务,使用的数据主要来自于的 FordA 数据集。原创 2025-03-25 09:10:35 · 673 阅读 · 0 评论 -
LSTM 预测苹果公司收盘价并进行回测
最近学习量化交易,所以试着写一个回测脚本。本文使用的是苹果公司的历史股票数据,定义了一个简单的回测策略,先使用历史股票数据进行回测,然后再使用模型预测的股票数据进行回测。原创 2025-03-24 16:32:02 · 711 阅读 · 0 评论 -
使用 Pruning 技术对模型大小进行压缩
Sequential。原创 2025-03-24 16:30:57 · 1147 阅读 · 0 评论 -
mini GPT 实现文本生成
本文主要展示了如何实现微型的 GPT 模型完成文本生成任务,该模型只由 1 个 Transformer 块组成。原创 2025-03-21 15:02:04 · 1163 阅读 · 0 评论 -
MobileNet+Milvus 完成对街景图片的精确搜索(二)
书接上回,这次我对图像进行了复杂的变换操作,然后使用相关技术完成图片的精确搜素。原创 2025-03-19 09:00:12 · 971 阅读 · 0 评论 -
MobileNet+Milvus 完成对街景图片的精确搜索
最近遇到了一个需求,就是在一批街景图片数据中,输入一张图片进行比较精确的图片搜索。之前本来想使用孪生网络来解决这个问题,但是(上一篇文章写了这个,感兴趣的同学可以前往)需要同时输入一对图片,这是个缺陷(也可能是我的能力有限想偏了),好像不能解决我的问题。我的需求只能是输入一张图片,然后在图片库中进行搜索,所以经过试验,想到了使用tfhub中预训练的模型MobileNet对图片库中所有的街景图片先进行特征提取,然后将特征提取结果存入向量引擎Milvus。原创 2025-03-19 08:58:06 · 568 阅读 · 0 评论 -
tensorflow 孪生网络计算卫星图像的相似度
首先需要说明的是我自己将数据进行了处理,放到了 maps 目录之下,总共有 6582 张图像,每张图像会通过随机旋转得到两个不同的图像(这里只是为了实现简单的任务,只是对原图像进行了旋转,如果是比较复杂的任务,需要将图像经过反转、放缩、仿射、裁切等操作),并且这三个图像的名字是三个相连的数字,也就是说文件夹中每 3 个相连的图片是有关系的一组图片。索引为 9 的验证集数据和预测标签如下,可以看出这两个图片与预测值是对的,很明显这两个是相关的图像,右边的图像是左边图像经过向左旋转得到的。原创 2025-03-18 08:35:31 · 1069 阅读 · 0 评论 -
tensorflow 实现图像搜索引擎
获取相似的图像是当下搜索引擎的一个重要功能,在本次任务中,我使用 LSH 算法,在预训练图像分类模型 Bit 基础上,实现简单的图像搜索功能。实现过程比较简单,容易理解,是个值得上手练习的案例。原创 2025-03-18 08:32:24 · 579 阅读 · 0 评论 -
知识图谱基础知识摘要
简单理解就是一个图,节点是各种各样的现实当中的实体,如人、物、组织等,线是反应节点之间的关系或者属性。如图所示。原创 2024-09-27 09:04:55 · 1760 阅读 · 0 评论 -
Python 实现 Tri-Gram
上文介绍了Python 实现 Bi-Gram,本文继续深入,介绍 Python 实现 Tri-Gram。原创 2024-08-06 09:26:34 · 420 阅读 · 0 评论 -
viterbi 算法 python 实现
默认读者已经了解 HMM 相关的内容,并对 viterbi 算法有了解。原创 2024-07-29 17:04:36 · 609 阅读 · 0 评论 -
BI-LSTM+Attention 的 tensorflow-1.14 实现
这里只是用简单例子演示关于 self-attention 的逻辑,判断一句话的情感是正面或者是负面,具体原理自己百度即可。原创 2024-07-28 07:54:54 · 907 阅读 · 0 评论 -
NLP 遇上中秋节
之前已经写过诗了,这次就换个口味,用 Seq2Seq 写写对联。那我们开始测试写藏头诗吧,主要使用了一些中秋常见的人物和话题,说实话有点人工智障的感觉,但是已经迈出了第一步了,之后可以继续完善写出诗的质量,毕竟模型也忒简单了点,就是应个景图个乐,给大家中秋助助兴。模型训练好,在用模型写诗的过程也和上面类似,每次输入上一个时刻的字以及上一个时刻的状态,来预测当前的字,知道满足结束条件,如够多少个字,或者遇到预测出句号为止。这里主要对数据的处理做简单的介绍,其他的模型搭建和训练过程套路基本不变,这里不再赘述。原创 2024-07-25 09:02:58 · 617 阅读 · 0 评论 -
Word2Vec 的 tensorflow-1.14 实现
【代码】Word2Vec 的 tensorflow-1.14 实现。原创 2024-07-19 08:20:34 · 298 阅读 · 0 评论 -
使用 LSTM 进行字符级别的文本生成
本文展示了如何使用 LSTM 模型进行字符级别的文本生成过程,整个过程如果要达到文本通顺的程度至少需要 20 个 epoch ,以及至少 1M 字符的语料库,而且由于 RNN 网络计算量巨大所以建议在 GPU 上运行此脚本。原创 2024-07-13 10:55:59 · 781 阅读 · 0 评论 -
微调 GPT-2 完成文本生成任务
我们使用kears_nlp中原生的GPT-2模型(),首先是指定我们的PROMPT是,也就是让 GPT-2 从这里开始文本生成,调用方式很简单,生成200 个token 耗时22.81 s,速度大约。另外我想尝试下中文的文本生成效果,但是找到了官方的kears_nlp可以调用的GPT-2全部都是英文数据训练出来的,我不太死心,还是想试试,所以调用,我也将PROMPT改成了我爱中国!,生成的结果简直就是乱七八糟,狗屁不通,自己把自己卡死掉了。原创 2024-03-26 18:16:56 · 952 阅读 · 0 评论 -
使用 Keras 的 Stable Diffusion 实现高性能文生图
在本文中,我们将使用基于 KerasCV 实现的模型进行图像生成,这是由stable.ai开发的文本生成图像的多模态模型。是一种功能强大的开源的文本到图像生成模型。虽然市场上存在多种开源实现可以让用户根据文本提示轻松创建图像,但 KerasCV 有一些独特的优势来加速图片生成,其中包括XLA 编译和混合精度支持等特性。所以本文除了介绍如何使用 KerasCV 内置的模块来生成图像,另外我们还通过对比展示了使用 KerasCV 特性所带来的图片加速优势。原创 2024-03-19 10:50:45 · 1304 阅读 · 0 评论 -
直观感受卷积 VAE 模型的潜在分布空间
本文展示了在MNIST数据集上训练。VAE是自动编码器的概率模型,它会将高维输入数据压缩为维度较小的表示形式,但是实现方式与将输入映射到潜在向量的传统自动编码器不同,VAE,最经典的方式莫过于高斯分布的均值和方差。这种方法会产生一个连续的、结构化的潜在空间,这对于图像生成的多样化很有用。原创 2024-03-11 09:42:59 · 2604 阅读 · 0 评论 -
有了阿里最新的 EMO 大模型,我让那英循环唱《冲动的惩罚》一百遍!
阿里终于整活了,刚刚阿里发布了一个大模型的展示页面,提出了一个名叫的大模型,一种富有表现力的音频驱动的基于人物肖像生成视频的框架。具体来讲就是,输入单个参考人物肖像图像和语音(例如讲话或者唱歌等),可以生成具有丰富的面部表情和各种头部姿势的声音头像视频,同时可以根据输入视频的长度生成任意持续时间的视频。如下示意图。只需要一张人物肖像照片,包括:现实照片、动漫照片、AI 生成的照片等等只需要一段音频,包括:演讲、唱歌、讲话等等生成符合音频内容的丰富的面部表情生成任意时长的视频。原创 2024-03-04 14:31:23 · 1305 阅读 · 0 评论 -
Stable Diffusion 3 强势来袭,从此将文字绘画出来不是难题!
Stability AI 刚发布 Stable Diffusion 3 模型进行公测。该模型采用 diffusion transformer 架构,显著提高了在多主题提示、图像质量和拼写能力方面的性能。原创 2024-02-26 14:21:35 · 936 阅读 · 0 评论 -
卷爆 Sora ,Stable Video Diffusion 免费开放!
Sora 虽然是造势很大,但是个人猜测想要公开使用大概率是卡在了算力方面,所以迟迟没有动静,网上申请了红客应用的人们也没有收到邀请内测,奥特曼也在靠几个 demo 想拉 7 万亿美元的投资实属有点异想天开了,种种不正常的表现引人遐想。而就在这个是时候 Stability.ai 最新发布了 stable video 的官网,作为一款正式公布的免费文生视频或者图生视频的工具,效果也是相当惊艳。文生视频图生视频不仅如此,还有一些控制相机运动的选项,如下图视频的风格也可以选择,如下图综上有如下特点。原创 2024-02-23 09:20:31 · 713 阅读 · 0 评论 -
通俗易懂讲解 Sora 工作原理
这位大佬用通俗易懂的方式,逐步拆解Sora工作原理,浅显易懂,推荐看看!本文为转载文章,原文请看链接。原创 2024-02-21 20:25:22 · 1260 阅读 · 0 评论 -
朝花夕拾杯中酒
马上就是龙年了,我自己用 stable diffusion 中的模型自己绘制了几个年画,祝大家新的一年。这个用到了麦橘底模和剪纸这个用到了IP DESIGN底模和春节限定【龙】原创 2024-01-24 08:53:37 · 1784 阅读 · 0 评论 -
使用 BERT 完成文本问答的答案预测任务
本文主要介绍了文本问答的实现过程,简单来说就是输入“文本+问题”,返回“答案在文本的起始索引和终止索引”。原创 2024-01-22 08:25:01 · 2073 阅读 · 0 评论 -
LSTM 模型“实现”整数相加运算
本文主要介绍了使用LSTM模型完成简单的两个整数相加的运算。原创 2024-01-18 08:28:58 · 1049 阅读 · 0 评论 -
一维卷积完成文本情感分类任务
本文主要搭建经典的一维卷积神经网路模型,用于完成 IMDB 电影评论的情感分类预测任务,并在最后对模型进行了改造升级。原创 2024-01-16 08:19:31 · 733 阅读 · 0 评论 -
FNet 模型完成文本情感分类任务
本文主要介绍了使用 FNet 模型完成 IMDB 电影评论的情感分类任务,并且和传统的 Transformer 模型进行性能比较。FNet 模型的出现是为了解决传统的 Transformer 模型计算时间复杂度过高的问题。:相比于传统的自注意力机制,FNet 使用傅立叶变换来捕捉序列中的长距离依赖关系,从而提高了处理长序列的效率。:FNet 具有相对轻量级的结构,使其在处理大规模序列数据时更加高效,同时也减少了计算成本,时间复杂度从 O(n^2) 降低到了 O(nlogn)。原创 2024-01-13 09:26:12 · 1413 阅读 · 0 评论 -
leetcode 1961. Check If String Is a Prefix of Array(python
根据题意,给出了一个字符串 s ,还有一个单词列表 words ,让我们判断 s 是否是 words 的前缀字符串。题目中给出了定义判断字符串 s 是否是列表 words 的前缀,只需要判断 s 是否和 words 中的前 k 个字符串拼接起来的字符串相同即可,k 要小于 words 的长度。但是要保证不能是“伪前缀”,如 s=a ,words=[“aa”,“aaaa”,“banana”] ,这种输入应该是 False ,所以还要保证 s 的长度必须是合理的。原理一样,换汤不换药。您的支持是我最大的动力。原创 2024-01-11 08:33:20 · 401 阅读 · 0 评论 -
arXiv 论文的多标签文本分类
本文构建了一个常见的深度学习模型,实现多标签文本分类,可以根据论文摘要的文本内容预测其所属的多个主题领域标签。原创 2024-01-10 08:33:50 · 689 阅读 · 0 评论 -
图像生成系列(四)——基于残差网络和自注意力机制的 VAE
输入就算是多张图像,也只显示第一张图像,这个函数还有一个作用就是在训练模型的时候每隔一段时间展示一下模型的图像生成效果,暂停显示 2秒,并且将图像保存下来。当损失值降到 9 以下,基本效果就不错了,这里是从一开始到最后训练生成的效果图,挑选了 16 张来展示模型的进化效果,可以看出来,将动漫角色还原的很好,颜色也比较到位。,通过一系列的图像预处理操作对图像进行处理,主要包括图像尺寸的调整、图像尺寸的裁剪、图像值归一化等常规操作。中可以增强模型对全局依赖关系的学习能力,提高重建质量,并增加生成样本的多样性。原创 2024-01-09 08:29:42 · 2670 阅读 · 2 评论 -
图像生成系列(三)——Diffusion
扩散模型是一种用于图像生成的模型,其主要特点是通过逐渐扩散和迭代生成图像。有两个过程:前向扩散和反向扩散。原创 2024-01-07 09:21:09 · 4132 阅读 · 1 评论 -
图像生成系列(二)——Variational Autoencoder
Variational Autoencoder(VAE)是一种生成模型,用于学习输入数据的潜在表示并生成与原始数据相似的新样本。原创 2024-01-06 08:51:43 · 1629 阅读 · 0 评论 -
图像生成系列(一)——AutoEncoder
AutoEncoder 是一种用于数据降维和特征提取的无监督学习模型,它由一个 encoder 和一个 decoder 组成。 encoder 将输入数据转换为一个潜在空间的向量,而 decoder 将这个向量转换回输入的数据。这个模型可以学习到数据的紧凑表示,将高维的输入数据转换为低维的潜在空间向量,并且可以用于数据的压缩、去噪、特征提取等多种任务。原创 2024-01-05 09:08:35 · 1453 阅读 · 0 评论 -
使用在线 qwen-turbo 模型构建多工具的智能 agent
本文以 chatchat 项目为框架,以线上大模型 qwen-turbo 的基础构建智能 agent ,在已有知识库的基础上,如果用户提问知识库相关的内容则调用 知识库查询工具 获取相关知识进行回复。如果用户提问其他的天气相关问题,则调用 天气查询工具(前文已有详细过程,此处不再赘述)来获取相关在线信息。原创 2024-01-03 13:49:28 · 3136 阅读 · 0 评论 -
Qwen-7B-Chat 通过 Agent 获取外部天气
本文使用 Qwen-7B-Chat 大模型,通过 Agent 调用自定义工具 weathercheck 来获取实时天气状况,还能给出出行穿戴的建议哦。原创 2024-01-03 13:41:46 · 1969 阅读 · 1 评论