- 博客(74)
- 资源 (2)
- 收藏
- 关注
原创 大模型评测
AI之旅AI之旅导航:这是一个免费无广告的AI大模型和工具导航网站,提供了大模型整理和排名信息。评测网站SuperCLUESuperCLUE是一个中文通用大模型的综合性评测基准,旨在全面评估中文大模型在不同任务上的表现。它由CLUE团队开发,专注于语言理解与生成、知识理解与应用、专业能力、环境适应与安全性等多个维度的评估。SuperCLUE的评测体系包括基础能力、专业能力和中文特性能力三个主要维度,涵盖语义理解、对话、逻辑推理、角色模拟、代码生成与创作等10项基础能力,以及中学、大学及专
2025-01-11 21:08:13
467
原创 国内外大模型以及部署
国内15家AI大模型应用盘点AI大模型秘塔AI搜索秘塔AI搜索免登录,免费的问答大模型。开源大模型OllamaOllama是一个专注于提供 大语言模型(LLM) 本地化部署和运行的工具和资源的平台。它旨在帮助用户轻松地在自己的设备上运行和定制大型语言模型本地部署大模型5分钟本地部署部署ollama-webui可视化界面展示大模型大模型一键启动AI应用帮
2024-12-31 20:13:54
423
原创 DL即插即用模块
注意力机制awesome-attention-mechanism-in-cvAwesome-Transformer-Attention即插即用deepLearning-modules-toolboxdeepLearning-modules-toolbox
2024-09-19 19:47:18
196
原创 文档去重算法
MinHash算法MinHash是一种用于近似计算文档集合相似度的算法。它可以有效地将文档集合的相似度评估问题转化为哈希集合之间相互作用的问题,从而可以用较小的计算代价来获得相似的结果。SimHash算法SimHash是一种用于快速计算文本指纹的算法,通过降维技术将高维的文本特征向量映射成一个低维的哈希值(指纹)。该算法在保持文本相似度信息的同时,大大降低了数据的维度。Klongsent算法Klongsent算法可能结合了MinHash的随机哈希选择和SimHash的降维技术,通过先对文
2024-09-13 19:30:57
402
原创 大模型训练数据库Common Crawl
Common Crawl是一个非营利组织,致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。Common Crawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据,并将其上传到Common Crawl基金会的数据仓库中。该项目从2008年开始,至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据经过处理后,可以用于自然语言处理和机器学习的训练。
2024-09-11 20:34:56
1754
1
原创 Stable Diffusion 详解
整体目标文本生成图片;文本+图片生成图片网络结构CLIP的文本编码器和图片生成器组成图像生成器,输入是噪声经过UNet得到图像特征,最后解码得到图像前向扩散模型直接预测图片难度比较大,所有让模型预测噪音然后输入-噪音可得到原图逆向扩散预测模型UNet改进后的UNet参考链接
2024-03-10 13:55:41
759
原创 Glip模型
Yolos完全使用Transformer做目标检测Detr先使用CNN提取特征然后再使用transformerDetr和Yolos共同的缺点:需要事先知道所有的类别GlipZero-shot, 目标检测的类别可以不在训练类别中目标框进行视觉编码,然后和文本进行匹配文本和视觉特征是通过Clip模型提取的,所以视觉向量和文本向量是在一个空间Glip模型的优点Glip图像和文本融合Glip损失函数Glip训练数据
2024-03-09 21:16:05
751
1
原创 SAM模型
SAM与过去分割对比根据以下Demo,我们可以发现,通过在图像中指定要分割的内容提示,SAM可以实现各种分割任务,且无需额外的训练、做到零样本泛化,即SAM学会了辨别物体、具备图像理解力、对不熟悉的图像和物体能进行零样本概括,这一通用特性使得SAM模型在有关领域的推广应用成为可能。SAM模型结构focal loss为了解决类别不均衡的问题,其中系数为0就是标准的分类loss数据引擎SAM存在的问题
2024-03-09 20:32:49
541
原创 多模态入门
VIT处理图像CNN VS Transformer多模态BLIP模型网络结构视觉编码器: 就是 ViT 的架构。将输入图像分割成一个个的 Patch 并将它们编码为一系列 Image Embedding,并使用额外的 [CLS] token 来表示全局的图像特征。视觉编码器不采用之前的基于目标检测器的形式,因为 ViLT 和 SimVLM 等工作已经证明了 ViT 计算更加友好。作用提取图像特征。文本编码器:就是 BERT 的架构,其中 [CLS] token 附加到文本输入的开头以总结句
2024-03-06 19:08:11
496
原创 Sora背后的关键技术
Sora量大核心技术Spacetime Patch(时空Patch)Patch可以理解为Sora的基本单元,就像GPT-4的基本单元是Token。Token是文字的片段,Patch则是视频的片段。GPT-4被训练以处理一串Token,并预测出下一个Token。Sora遵循相同的逻辑,可以处理一系列的Patch,并预测出序列中的下一个Patch。Sora通过Spacetime Patch将视频视为补丁序列,Sora保持了原始的宽高比和分辨率,类似于NaViT对图像的处理。这对于捕捉视觉数据的真正本质至
2024-02-28 20:52:41
612
原创 扩散模型:Diffusion Model原理剖析
x0ϵθtϵx0xtxt−1x0xtqxt−1∣xtx0)Pxt−1∣xt)xt−1xttx0xtxttxt−1x0ααββδtz。
2024-01-20 14:11:13
1022
原创 扩散模型: Diffusion Model概念讲解
Diffusion Model课件视频前向扩散过程在原始图像中逐步添加高斯分布随机噪声,直到最后得到完全噪声的图像。反向降噪过程逐步去除噪声图中的噪声,得到最后原图。根据噪声图和时间步得到预测的噪声,然后噪声图减去噪声得到原始图噪声预测的标签来自于前向扩散过程中添加的噪声DDPM算法流程Stable Diffusion Model与扩散模型对比,可以理解成stable diffusion model就是在latent space上的diffusion model
2024-01-06 21:58:52
1119
原创 Instruct GPT:training language models to follow instructions with human feedback
Instruct GPT论文局限性GPT等大型语言模型基于Prompt的zero shot的学习范式有一个很大的问题是,预训练的模型完成的任务是后继文本的预测,这和具体任务的要求有一些偏离,生成的结果也不一定符合人的意图。贡献本文提出构建人类反馈的数据集,使用监督学习去Fine-tune GPT模型,这样能使得模型往大家希望的方向行进(模型输出与人类意图Alignment)。Fine-tune后,仅使用13亿参数量的GPT-3.5比1750亿参数量的GPT-3效果要好。数据集P
2024-01-05 21:28:00
948
1
原创 GPT-3: Language Models are Few-Shot Learners
模型架构基本延续GPT-2的基于Transformer的网络架构。相比于GPT-2做了如下改变:In-context Learning
2023-12-29 20:22:51
835
原创 GPT-2: Language Models are Unsupervised Multitask Learners
GPT 2论文代码GPT-2的核心思想是,任何一个有监督NLP任务,都可以看成是语言模型的一个子集,只要预训练语言模型的容量足够大,理论上就能解决任何NLP任务。GPT-2的核心就是提升模型的容量和数据多样性,让语言模型能够达到解决任何任务的程度。改进之处模型更大,采用48层的transformer的decoder共有15亿个参数;数据集更大,训练数据是一个称为WebText的数据集总共有40GB的文本内容。GPT在大数据集上预训练然后再目标任务上微调会存在:需要重新训练模型;需要针对目标
2023-12-28 18:35:38
418
原创 DALL-E 2: Hierarchical Text-Conditional Image Generation with CLIP Latents
参考链接:https://zhuanlan.zhihu.com/p/639249327。
2023-12-24 22:30:01
988
原创 DALL-E:Zero-Shot Text-to-Image Generation
参考:https://blog.youkuaiyun.com/weixin_57974242/article/details/134227455。
2023-12-23 13:41:29
631
原创 自然语言处理阅读第三弹
对于每个任务,都有一个特定的前缀被添加到输入序列的开始部分。这些前缀相当于任务特定的提示,可以是一组固定的词或是可训练的嵌入向量。同时,为了防止直接更新Prefix的参数导致训练不稳定和性能下降的情况,在Prefix层前面加了MLP结构,训练完成后,只保留Prefix的参数。:该方法可以看作是Prefix Tuning的简化版本,它给每个任务定义了自己的Prompt,然后拼接到数据上作为输入,但只在输入层加入prompt tokens,并且不需要加入 MLP 进行调整来解决难训练的问题。
2023-12-22 21:18:32
1349
1
原创 自然语言处理阅读第二弹
HuggingFace镜像网站模型库HuggingFace中bert实现下游任务介绍重要源码解读NLP中的自回归模型和自编码模型自回归:根据上文内容预测下一个可能的单词,或者根据下文预测上一个可能的单词。只能利用上文或者下文的信息,不能同时利用上文和下文的信息。自编码:对输入的句子随机Mask其中的单词,然后预训练过程的主要任务之一是根据上下文单词来预测这些被Mask掉的单词。同时根据上下文预测单词。Sequence-to-Sequence:是encoder和decoder的结合
2023-12-17 21:10:23
1113
原创 自然语言处理阅读第一弹
Masked Language Model:将输入句子中的某些token随机替换为[MASK],然后基于上下文预测这些被替换的token。学习局部语义和上下文依赖关系。这有助于BERT理解每个词的表达。Next Sentence Prediction:给定一对句子A和B,判断B是否是A的下一句。这可以学习句子之间的关系,捕获上下文信息,有助于BERT在文档层面上理解语言。
2023-12-15 20:31:33
568
原创 pytorch版本的timm库
timm库官网文档huggingface文档介绍githubtimm 是一个 PyTorch 原生实现的计算机视觉模型库。它提供了预训练模型和各种网络组件,可以用于各种计算机视觉任务,例如图像分类、物体检测、语义分割等等。VIT模型
2023-08-15 21:39:03
3303
原创 Linux环境安装CUDA和CUDNN
conda 虚拟环境中 cuda不同版本進行切換: https://blog.youkuaiyun.com/weixin_43305485/article/details/130413708。参考地址:https://blog.youkuaiyun.com/m0_45447650/article/details/132058561。查询 : http://pci-ids.ucw.cz/mods/PC/10de?列表 : http://pci-ids.ucw.cz/read/PC/10de。
2023-08-14 18:11:00
274
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人