- 博客(70)
- 资源 (3)
- 收藏
- 关注
原创 通义万相环境搭建&推理测试
值得关注的是,其轻量化版本万相 1.3B 不仅性能超越同量级开源模型,甚至逼近部分闭源产品,同时实现了 8.2GB 显存的消费级显卡部署能力,为二次开发和学术研究提供了重要支撑。2月25日,阿里云旗下视觉生成基座模型万相 2.1(Wan)重磅开源,此次开源采用最宽松的 Apache2.0 协议,14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务。作为长期关注大模型,多模态的blogger,我还是不能错误,我一直认为阿里开源的大模型是业界良心。OK,让我们开始吧。
2025-03-31 10:18:31
670
原创 VLM-R1环境搭建&推理测试
(2)泛化能力卓越,在领域外测试数据上,传统 SFT 模型性能随训练步数增加而下滑,R1 模型却能持续提升,表明 R1 方法让模型真正理解视觉内容而非简单记忆。这个项目的团队在 Qwen2.5-VL 的基础上,同时对比了 R1 和传统的 SFT 方法。(3)上手简单,VLM-R1 项目团队提供完整训练和评估流程,四步即可开始训练,对开发者友好。(1)稳定性强,R1 方法在复杂场景下也能保持高性能,对实际应用意义重大。前文也写了DeepSeek R1模型的安装测试,感兴趣的童鞋移步(
2025-03-25 15:57:05
461
原创 Qwen2-VL华为卡300i duo环境搭建&推理测试
多模态华为卡的适配倒是一直没有出过相关的博客。刚好遇到需要Qwen2-VL的配置,安装。通过watch -n 1 npu-smi info命令查看当前的npu程序,看看是否加载顺利。前面也写过华为300i duo DeepSeek的环境搭建&推理测试,感兴趣的同事请移步({"type": "text", "text": "介绍图中的内容."}3、修改ip和端口号,检查httpsEnabled是否是false。2、用curl命令本地访问大模型,看是否有返回结果。4、配置大模型路径、name和分配对应的芯片。
2025-03-17 11:56:57
821
原创 DeepSeek-R1华为卡300i Duo环境搭建&推理测试
在N卡上的操作,应该已经展示的比较全面了。今年过年期间,华为很快就宣布适配DeepSeek-R1,刚好,手上有几张华为300i Duo卡,有资源部署。1、修改模型里的config.json比如模型路径为:/home/aicc/modelscope/deepseek/distill-32b。通过watch -n 1 npu-smi info命令查看当前的npu程序,看看是否加载顺利。前文已经写了不少DeepSeek相关的文章,感兴趣的童鞋可以移步(4、配置大模型路径、name和分配对应的芯片。
2025-03-10 11:54:09
1114
原创 YOLOv12环境搭建&推理测试
突破传统 YOLO 依赖 CNN 架构的局限,以注意力机制为核心设计 YOLOv12 框架,发挥注意力机制强大的建模能力,打破 CNN 模型在 YOLO 系列中的主导地位。),最近如火如荼的deepseek,我也写了几篇博客,但作为一个CV出身的程序猿,上篇文章也说到,也许追YOLO也成为一个CVer的信仰了吧。提出简单有效的区域注意力模块(A2),通过简单的特征图划分方式,在减少注意力计算复杂度的同时,保持较大的感受野,显著提升计算速度,且对性能影响较小。(2)高效的区域注意力模块。
2025-03-03 09:28:20
450
原创 Sa2VA环境搭建&推理测试
Sa2VA 模型通过结合基础视频分割模型 SAM-2 和高级视觉语言模型 LLaVA,将文本、图像和视频统一到共享的 LLM 标记空间中。这种架构设计使得 Sa2VA 能够在最少指令微调的情况下,执行多种任务,包括图像对话、视频对话、图像指称分割、视频指称分割和基于单次指令调整的字幕生成。Sa2VA模型通过结合SAM-2和LLaVA,将文本、图像和视频统一到共享的LLM标记空间中,能够在少量指令微调下执行多种任务,如图像/视频对话、指称分割和字幕生成。OK,那就让我们开始吧。
2025-02-24 14:50:35
430
原创 基于Ollama的win10环境下DeepSeek安装测试
必须可以的,安排,为了大家更方便的操作,这次直接只用win10系统。1、查看电脑配置(ps:大家应该看了很多类似视频教程,绝口不提安装电脑的配置,这点我也是很好奇),电脑右击属性查看CPU、内存信息。查看本地显卡配置,cmd打开,输入nvidia-smi,具体显卡驱动、cuda安装在此就不赘述了。2、安装Ollama,这是运行大模型的一个基座架构,支持windows、mac、linux等平台。1、点击Ollama,安装DeepSeek,跑个7b模型试试。模型下载完成,即可以使用,那我们再来看看显存大小。
2025-02-17 09:14:35
270
原创 DeepSeek-Janus-Pro环境搭建&推理测试
这像给Janus-Pro一个文字描述,让它画出一幅画,结果它画得比其他模型更准确、更细致,说明它在根据文字描述生成图像方面也很出色。对了,DALL-E 3是OpenAI开发的文生图模型,而 Stable Diffusion 3 Medium不用说了,众所周知,专注于生成高质量图片,特别在中等分辨率下表现出色。首先,多模态理解任务上:Janus-Pro在MMBench基准测试中得分79.2,超过了其他一些知名的模型,比如TokenFlow-XL(68.9)和MetaMorph(75.2)。
2025-02-10 09:17:34
882
原创 ElasticSearch 学习课程入门(二)
前文已经介绍了ES的增删改查基本操作,接下来,我们学习下高级点的用法。OK,那就让我们开始吧。(3)全量查询 GET。(4)分页查询 GET。(6)完全匹配 GET。2、聚合查询 GET。
2025-02-05 09:08:30
302
原创 DeepSeek-R1环境搭建&推理测试
根据DeepSeek官方公布的数据,DeepSeek-R1在AIME2024上获得了79.8%的成绩,略高于OpenAI-o1-1217的79.2%。对于工程相关的任务,DeepSeek-R1的表现略优于OpenAI-o1-1217。1月20日,中国AI公司深度求索(DeepSeek)发布的DeepSeek-R1模型,凭借其独特的强化学习(RL)训练方法,首次让AI展现出类人的“顿悟时刻”——在解决复杂问题时,模型会突然停下思考,自主修正推理路径,甚至用自然语言标注“等等,这一步可能有误”。
2025-01-30 21:21:12
1203
原创 ElasticSearch 学习课程入门(一)
Web应用程序最重要的REST原则是,客户端和服务器之间的交互在请求之间是无状态的。使用的是标准的HTTP方法,比如GET、PUT、POST和DELETE。资源本身都是方法调用的目标,方法列表对所有资源都是一样的。这些方法都是标准方法,包括HTTPGET、POST、PUT、DELETE,还可能包括HEAD和OPTIONS。简单的理解就是,如果想要访问互联网上的资源,就必须向资源所在的服务器发出请求,请求体中必须包含资源的网络路径,以及对资源进行的操作(增删改查)。
2025-01-20 09:32:08
665
原创 ElasticSearch在Windows环境搭建&测试
Kibana使您能够以交互方式探索、可视化、和分享对数据的见解,并管理和监控堆栈。Elasticsearch的实现原理主要分为以下几个步骤,首先用户将数据提交到Elasticsearch数据库中,再通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据,当用户搜索数据时候,再根据权重将结果排名,打分,再将返回结果呈现给用户。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。Elasticsearch是分布式的,这意味着索引可以被分成分片,每个分片可以有0个或多个副本。
2025-01-13 10:26:45
1242
原创 DINO-X环境搭建&推理测试
发布了DINO系列最新的DINO-X通用视觉大模型,拥有真正的物体级别理解能力,具有最佳开放世界物体检测性能的统一的以物体为中心的视觉模型。还扩展了 DINO-X 以集成多个感知头,从而同时支持多个物体感知和理解任务,包括检测、分割、姿势估计、物体字幕、基于物体的 QA 等。进一步开发了通用物体提示,以实现无提示的任何物体检测和识别。DINO-X在物体检测领域树立新标杆,无需任何提示,即可识别几乎所有物体,并给出其类别,包括罕见的长尾物体(出现频率低但种类繁多的物体)。(2)最强的开放集检测性能。
2025-01-06 22:52:21
654
2
原创 OmniVision环境搭建&推理测试
在Apple最新M4 Pro处理器的MacBook上,它能够以不到2秒的惊人速度,生成一张1046×1568像素图像的语言描述。这一领域最新的突破之一是OmniVision-968M,这是一个紧凑且高效的视觉-语言模型,有望彻底改变边缘AI应用。Nexa AI的愿景是打造先进的端侧AI模型,让AI技术不再局限于云端,而是能够直接在本地设备上运行。之前关注这一块的内容比较少,感觉大模型这一块,最终还是要和之前AI模型一样的,云端+边端,两条腿走路,OK,那就让我们开始吧。1、安装python包。
2024-12-30 09:36:38
870
原创 Dify环境搭建&推理测试
as Service, BaaS)和LLMOps的理念,为开发者提供了一个用户友好的界面和一系列强大的工具,使他们能够快速搭建生产级的AI应用。2、模块化设计:Dify采用模块化的设计,每个模块都有清晰的功能和接口,开发者可以根据需求选择性地使用这些模块来构建自己的AI应用。3、丰富的功能组件:平台提供了包括AI工作流、RAG管道、Agent、模型管理等丰富功能组件,帮助开发者从原型到生产的全过程。4、支持多种大语言模型:Dify已支持主流的模型,开发者能够根据自己的需求选择最适合的模型来构建AI应用。
2024-12-23 09:23:28
631
原创 Xinference环境搭建&推理测试
(4)接口调用,灵活多样:提供多种使用模型的接口,包括 OpenAI 兼容的 RESTful API(包括 Function Calling),RPC,命令行,web UI 等等。(2)前沿模型,应有尽有:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2 等,一键即可体验!(5)集群计算,分布协同: 支持分布式部署,通过内置的资源调度器,让不同大小的模型按需调度到不同机器,充分使用集群资源。(1)模型推理,轻而易举:大语言模型,语音识别模型,多模态模型的部署流程被大大简化。
2024-12-16 09:47:29
486
原创 ClickHouse Ubuntu18.04下安装&测试
ClickHouse是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),使用C++语言编写,主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。但是当想查所有人的年龄时,需要不停的查找,或者全表扫描才行,遍历的很多数据都是不需要的。由于某一列的数据类型都是相同的,针对于数据存储更容易进行数据压缩,每一列选择更优的数据压缩算法,大大提高了数据的压缩比重;几乎覆盖了标准SQL的大部分语法,包括DDL和DML,以及配套的各种函数,用户管理及权限管理,数据的备份与恢复;
2024-12-09 10:52:05
695
原创 Hadoop Ubuntu18.04下安装&测试
用户可以在不了解分布式底层细节的情况下,开发分布式程序。的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和。的特点,并且设计用来部署在低廉的(low-cost)硬件上;的数据,适合那些有着超大数据集(large data set)的应用程序。因为工作需要,接触下大数据,那么接下来一些学习笔记会陆续记录着,OK,让我们开始吧。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。一、Hadoop介绍。
2024-12-02 10:45:44
563
原创 OpenAI开源Swarm环境搭建&推理测试
该团队还展示了一个应用示例,包括天气查询智能体、用于在航空公司环境中处理不同客户服务请求的多智能体设置、客服机器人、可以帮助销售和退款的个人智能体等。其中,智能体包含指令和工具,并且在任何时间都可以选择将对话交接给另一个智能体。该团队表示,这些原语很强大,「足以表达工具和智能体网络之间的丰富动态,让你可以针对真实世界问题构建可扩展的解决方案,同时避免陡峭的学习曲线。毫无疑问,多智能体肯定是 AI 未来重要的研究方向之一,前阵子OpenAI可算是再Open一回,开源了多智能体框架Swarm。
2024-11-25 09:17:48
469
原创 上海AI Lab Mono-InternVL环境搭建&推理测试
在Mono-InternVL中,一组视觉专家通过专家混合机制嵌入到预训练的语言模型中。通过冻结语言模型的语言部分参数,Mono-InternVL确保了视觉能力的优化,同时不会影响预训练的语言知识。与非原生模型相比,该模型首个单词延迟最多降低67%,在多个评测数据集上均达到了SOTA水准。Mono-InternVL在性能上优于当前最先进的多模态语言模型Mini-InternVL-2B-1.5,并且显著超越了其他原生多模态模型,如上方的。同时,它的部署效率也得到了提升,首个单词的延迟降低了最多达67%。
2024-11-18 10:27:13
551
原创 D-FINE环境搭建&推理测试
凭借这些创新,D-FINE 在 COCO 数据集上以 78 FPS 的速度取得了 59.3% 的平均精度 (AP),远超 YOLOv10、YOLO11、RT-DETR v1/v2/v3 及 LW-DETR 等竞争对手,成为实时目标检测领域新的领跑者。目前,D-FINE 的所有代码、权重以及工具已开源,包含了详细的预训练教程和自定义数据集处理指南。让我们看下与YOLOv11的对比,左边是D-FINE的超大杯,右边是YOLOv11的,大眼看过去,对于逆光模糊的场景,D-FINE确实效果要好很多。
2024-11-11 09:12:23
2360
19
原创 智谱AI Emu3环境搭建&推理测试
该模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。Emu3在图像生成、视频生成、视觉语言理解等任务中超过了SDXL 、LLaVA、OpenSora等知名开源模型,但是无需扩散模型、CLIP视觉编码器、预训练的LLM等技术,只需要预测下一个token。与此同时,该模型输出的离散token可以被转换为文本、图像和视频,为Any-to-Any的任务提供了更加统一的研究范式。而在此前,社区缺少这样的技术和模型。OK,显存不够 ,那就这样子吧。
2024-11-04 09:07:21
419
原创 CogView3环境搭建&推理测试
CogView-3-Plus 在 CogView3(ECCV'24) 的基础上引入了最新的 DiT 框架,以实现整体性能的进一步提升。在实际效果上,CogView3 在人工评估中比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%,同时只需要 SDXL 大约 1/10 的推理时间。盘一下,发现少了文生图的模型,刚好CogView3发布,一看只有3B参数,好嘞,就它了。第二阶段:利用中继扩散过程,执行 2 倍的超分辨率生成,从 512x512 输入生成 1024x1024 的图像。
2024-10-28 09:12:42
752
原创 YOLOv11环境搭建&推理测试
YOLOv 11是由位于美国和西班牙的Ultralytics团队开发的YOLO的最新版本。通过优化,这些模型比它们的前版本快得多。),这才过去这么短的时间,YOLOv11就横空出世了。5、更具适应性:更多支持的任务YOLOv 11支持多种类型的任务、多种类型的对象和多种类型的图像。2、GPU优化:这是现代ML模型的反映,GPU训练ML模型在速度和准确性上都更好。1、增强的模型结构:模型具有改进的模型结构,以获取图像处理并形成预测。4、更少的参数:更少的参数允许更快的模型,但v11的准确性不受影响。
2024-10-21 09:38:07
956
原创 Qwen2.5环境搭建&推理测试
9月29日消息,基准测试平台Chatbot Arena日前公布最新大模型盲测榜单,10天前发布的阿里通义千问开源模型Qwen2.5再次闯入全球十强,其大语言模型Qwen2.5-72B-Instruct排名LLM榜单第十,是前十唯一的中国大模型;4、支持超过29种语言的多语言能力,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。1、显著增加的知识量,在编程与数学领域的能力有了极大提升,这得益于我们在这些领域的专业专家模型。
2024-10-14 15:07:44
1094
原创 上海AI Lab视频生成大模型书生.筑梦环境搭建&推理测试
同时支持高达 720x480 分辨率的生成。该模型还能够处理多种视频格式,包括横屏、竖屏、4:3、9:16 和 16:9 等比例,极大地扩展了其应用场景。与其他开源模型不同,筑梦 2.0 同步开源了用于视频增强的生成式模型 ——VEnhancer,集成了插帧、超分辨率和修复功能。该增强算法可在 2K 分辨率、24fps 的情况下生成更加清晰、流畅的视频,解决了视频抖动等常见问题,显著提升了视频的稳定性。根据官方介绍,书生・筑梦 2.0 是集文生视频、图生视频、插帧超分、训练系统一体化的视频生成大模型。
2024-10-08 10:02:45
629
原创 Ovis1.6-9B视觉大模型环境搭建&推理
引子前阵子,阿里Qwen2-VL刚刚闪亮登场,感兴趣的小伙伴可以移步Qwen2-VL环境搭建&推理测试-优快云博客。这第一的宝座还没坐多久,自家兄弟Ovis1.6版本就来了,20240919阿里国际AI团队开源多模态大模型Ovis1.6。在多模态权威综合评测基准OpenCompass上,Ovis1.6-Gemma2-9B版本综合得分超越Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6等主流开源模型,在300亿以下参数开源模型中位居第一。一、模型介绍根据OpenCompass评测
2024-09-30 09:43:40
671
2
原创 MiniMind环境搭建&训练推理测试
该项目可以使用极小的数据和计算资源,在3小时内训练出一个26M的模型(ps:也许有读者会问,为啥我总是写推理,没有写训练,那显然是我没那个硬件条件呀,嗯,那这会儿这个条件有了。MiniMind 支持单机单卡和多卡训练,兼容多个流行的框架,并提供完整的代码和文档支持,帮助初学者和研究者快速上手并进行定制和扩展。MiniMind现在总共有5个模型,最小的是26M,已经有不错的对话能力了。但是这个方向还是一直要有人坚持去做的,这不,这两天翻到一个,MiniMind,只要3小时就能训练一个26M的大模型。
2024-09-23 09:24:21
906
原创 Qwen2-VL环境搭建&推理测试
与上一代模型 Qwen-VL 不同,Qwen2-VL 可以处理任意分辨率的图像,而无需将其分割成块,从而确保模型输入与图像固有信息之间的一致性。这种方法更接近地模仿人类的视觉感知,使模型能够处理任何清晰度或大小的图像。通过将 original rotary embedding 分解为代表时间和空间(高度和宽度)信息的三个部分,M-ROPE 使 LLM 能够同时捕获和集成 1D 文本、2D 视觉和 3D 视频位置信息。),这么小的模型,显然我的机器是跑的起来的,OK,那就让我们开始吧。
2024-09-18 14:37:48
3021
4
原创 FancyVideo环境搭建&推理
作者在进行视频生成研究过程中,发现现有的文本到视频(T2V)工作通常会采用空间交叉注意力(Spatial Cross Attention),将文本等价地引导至不同帧的生成过程中,缺乏对不同帧灵活性的文本引导(如下图左)。可以在消费级显卡 (如 GeForce RTX 3090) 上生成任意分辨率、任意宽高比、不同风格、不同运动幅度的视频,其衍生模型还能够完成视频扩展、视频回溯的功能,一种基于 UNet 架构的视频生成模型。修改requirements.txt包版本。
2024-09-09 16:34:53
1020
原创 LongWriter环境安装&推理测试
进一步分析用户和大模型的交互日志,研究人员发现只有超过1%的用户请求明确提到要生成超过2000字的文本。为此,他们改变了模型在监督式微调(SFT)阶段使用的数据集的最大输出长度。结果发现,模型的最大输出长度与SFT数据集中的最大输出长度呈显著正相关。即使模型在预训练阶段见过更长的序列,但是SFT阶段缺乏长文本样本,还是会影响输出长度。一口气生成2万字,大模型输出也卷起来了!大模型的生成内容一般都不会太长,这对于内容创作、问题回答等都存在影响,可能导致模型回答问题不全面、创造性能降低等。OK,让我们开始吧。
2024-09-02 11:46:41
542
原创 mPLUG-Owl3环境搭建&推理测试
论文作者来自阿里mPLUG团队,他们一直深耕多模态大模型底座,在此之前还提出了:(1)高效多模态底座mPLUG系列(2)模块化多模态大语言模型底座mPLUG-Owl系列(3)文档理解底座mPLUG-DocOwl系列等。(2)重命名为frpc_linux_amd64_v0.2, 并放入gradio(/opt/conda/lib/python3.11/site-packages/gradio)这个文件夹中(按你对应的,每个人的路径可能不一样)(1)先按照提示,下载frpc_linux_amd64文件,
2024-08-26 09:09:20
1122
7
原创 OV-DINO开放词检测环境安装与推理
为了应对这些挑战,作者提出了一种新的统一开放词汇检测方法,称为OV-DINO,该方法在统一框架中对各种大规模数据集进行预训练,并使用语言感知选择性融合。在流行的开放词汇检测基准上评估了所提出的 OV-DINO 的性能,在零样本方式下,在 COCO 基准上实现了 50.6% 的 AP,在 LVIS 基准上实现了 40.1% 的 AP,展示了其强大的泛化能力。),最近,由中山大学和美团联合提出新的开放域检测方法OV-DINO:基于语言感知选择性融合、统一的开放域检测方法,取得了开放域检测新SOTA!
2024-08-19 17:38:01
1241
6
原创 CogVideoX环境搭建&推理测试
智谱AI版Sora开源,首个可商用,18G显存即可运行。前文写了Open-Sora1.2的博文,感兴趣的童鞋请移步(对于这种占用资源少,且效果不错的多模态模型那么肯定不容错过。好吧,显存爆了,需要24G显存 ,我这边可用显存只有22G+单GPU推理 (FP-16) 显存消耗。多GPU推理 (FP-16) 显存消耗。下载地址 (Diffusers 模型)同源的开源版本视频生成模型。微调显存消耗 (bs=1)下载地址 (SAT 模型)CogVideoX是。
2024-08-12 16:01:27
731
原创 SAM2:环境安装&代码调试
而最新发布的 SAM 2 可用于图片和视频,并可以实现实时、可提示的对象分割。SAM 2 在图像分割准确性方面超越了以往的能力,在视频分割性能方面优于现有成果,同时所需的交互时间减少了三倍。SAM 2 还可以分割任何视频或图像中的任何对象(通常称为零镜头泛化),这意味着它可以应用于以前未见过的视觉内容,而无需进行自定义调整。时隔大半年,SAM 2代终于来了,之前写过一篇《Segment Anything(SAM)环境安装&代码调试》,感兴趣童鞋请移步。,OK,让我们开始吧。
2024-08-08 09:45:31
6035
18
原创 Elmo插件安装测试
尤为方便的是,无需登录或拥有GPT/OpenAI账户,用户可以直接使用它,从而提高工作效率和学习效果。写了那么多大模型安装搭建的文章,回过头来看,有没有更简单的方式使用大模型呢。无意间撇到贾清扬大神的公司的Elmo插件,据说新升级,断网都可以使用,那么必须走起,OK,让我们开始吧。访问 chrome://flags/#optimization-guide-on-device-model,选择 Enabled BypassPerfRequirement。4. 访问 chrome://flags/
2024-07-31 09:40:23
727
原创 CogVLMv2环境搭建&推理测试
前一阵子,CogVLMv2横空出世,支持视频理解功能,OK,那就让我们开始吧。1、在许多关键指标上有了显著提升,例如 TextVQA, DocVQA。3、支持高达 1344 * 1344 的图像分辨率。之前写过一篇CogVLM的分享,感兴趣的移步。CogVLM2 系列模型开源了两款基于。4、提供支持中英文双语的开源模型版本。2、支持 8K 文本长度。2、CogVLM2测试。
2024-07-22 09:22:52
492
原创 快手可图环境搭建&推理测试
Kolors 在数十亿图文对下进行训练,在视觉质量、复杂语义理解、文字生成(中英文字符)等方面,相比于开源/闭源模型,都展示出了巨大的优势。在 KolorsPrompts 上,我们收集了 Kolors 与市面上常见的 SOTA 级别的开源/闭源系统的文生图结果,并进行了人工评测和机器评测。python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图”"快手开源的东西还是第一次接触,看量子位推的软文,还是很惊艳的。OK,那就让我们开始吧。
2024-07-15 11:03:37
528
原创 Open-Sora1.2环境搭建&推理测试
在上一个版本基础上,引入了视频压缩网络(Video Compression Network)、更优的扩散模型算法、更多的可控性,并利用更多的数据训练出了 1.1B 的扩散生成模型。Stable Diffusion 3,最新的扩散模型,通过采用了 rectified flow 技术替代 DDPM,显著提升了图片和视频生成的质量。无意间翻到其开源网站上,发现2024.6.17发布1.2版本了,那还是过来看看有什么长足的进步吧,呦呵,现在支持720P 高清视频,质量和生成时长也有了突破性进展。
2024-07-08 15:09:59
2288
4
原创 U-KAN环境搭建&推理测试
在严格的医学分割基准上的实证评估,无论是定量还是定性,都强调了U-KAN的卓越性能,即使没有更少的计算成本,也超越了已建立的U-Net主干,提高了准确性。作者的研究进一步探讨了U-KAN作为扩散模型中U-Net噪声预测器的潜力,证实了其在生成面向任务的模型架构中的相关性。作者研究、修改并重新设计已建立的U-Net Pipeline ,通过在标记化的中间表示上整合专用的KAN层,称之为U-KAN。4、将U-KAN应用于现有的扩散模型作为改进的噪声预测器,展示了其在支撑生成任务和更广泛的视觉设置中的潜力。
2024-07-01 09:14:11
1276
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人