- 博客(175)
- 收藏
- 关注
原创 云平台一键部署【SGLang】适用于大型语言模型和视觉语言模型的快速服务框架
SGLang 是一个适用于大型语言模型和视觉语言模型的快速服务框架。它通过共同设计后端运行时和前端语言,使您与模型的交互更快、更可控。1.吞吐量碾压级优势2.结构化输出快如闪电3.多 GPU 优化SGLang模型已经在趋动云『社区项目』上线,无需自己创建环境、下载模型,一键即可快速部署,快来体验SGLang带来的精彩体验吧!项目入口:https://open.virtaicloud.com/web/project/detail/548095845019824128。
2025-03-11 14:16:30
517
原创 趋动云『社区项目』【Deepseek671B】一键体验
DeepSeek-R1 一经发布引起国际热议,其性能比肩 OpenAI o1 正式版,但是花费却大大减少,并且该模型已经完全开源。目前deepseek模型671b版本1.58bit量化版本已经在趋动云『社区项目』上线,无需自己创建环境、下载模型,即可快速运行,快来一键体验deepseek吧!项目入口:视频教程:趋动云平台一键体验爆火模型【deepseek671b】
2025-02-21 11:21:45
428
原创 趋动云『社区项目』一键体验爆火模型【Qwen2.5-VL】
Qwen2.5-VL是Qwen家族的旗舰视觉语言模型,相比Qwen2-VL有显著提升。Qwen2.5-VL能够识别常见物体并分析图像中的文本、图表等;作为视觉Agent,具备推理能力;能理解长视频并精准捕捉事件;支持视觉定位和结构化输出。在性能方面,在多个基准测试中表现出色,尤其在文档和图表理解方面优势明显。目前Qwen2.5-VL-7B-Instruct版本已经在趋动云『社区项目』上线,在官网上可以看到Qwen2.5-VL-7B-Instruct 在多个任务中超越了 GPT-4o-mini!
2025-02-14 11:40:46
639
原创 云平台一键体验爆火模型【deepseek】
DeepSeek-R1 一经发布引起国际热议,其性能比肩 OpenAI o1 正式版,但是花费却大大减少,并且该模型已经完全开源。目前使用Ollama搭建的deepseek模型1.5b版本已经在趋动云『社区项目』上线,无需自己创建环境、下载模型,一键即可快速部署,快来体验搭建deepseek 带来的精彩体验吧!视频教程:趋动云一键体验爆火模型【deepseek】
2025-02-06 14:44:13
305
原创 趋动云一键体验【ChatTTS】最强语音推理服务
ChatTTS(Chat Text To Speech)是专为对话场景设计的文本生成语音(TTS)模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。ChatTTS支持中文和英文,还可以穿插笑声、说话间的停顿、以及语气词等,听起来非常真实自然(ChatTTS团队声称:突破开源天花板)。它通过优化语音合成过程,实现了更加自然和流畅的语音输出。这项技术特别适用于需要模拟真实对话场景的应用,如聊天机器人和虚拟助手。
2025-01-26 14:59:30
731
原创 云平台一键部署【Story-Adapter】极速生成高质量、极具细腻交互的长篇故事图像
Story-Adapter 框架。所提出的迭代范式的说明,包括初始化、Story-Adapter 中的迭代和全局参考交叉注意 (GRCA) 的实现。Story-Adapter 首先仅根据故事的文本提示对每幅图像进行可视化,并将所有结果用作下一轮的参考图像。在迭代范式中,Story-Adapter 将 GRCA 插入 SD。对于每次图像可视化的第 i 次迭代,GRCA 将通过交叉注意在去噪过程中聚合所有参考图像的信息流。本次迭代的所有结果将用作参考图像,以指导下一次迭代中故事可视化的动态更新。
2025-01-21 15:04:39
1105
原创 云平台一键部署【Video-Background-Removal】视频换背景,无任何限制,随意换
Video-Background-Removal 是一款革命性的视频背景替换工具,旨在让用户轻松实现视频背景的快速更换。无论你是专业创作者还是普通用户,这款软件都能让你在几秒钟内改变背景,完全消除限制,随心所欲,随时随地想换就换!影视制作:在电影、电视剧中创建不可思议的场景转换,如科幻片中的星际旅行、历史剧中的时空穿越等。在线会议和直播:对于直播带货或教育培训等领域,主播或讲师可以使用多样化的场景切换来吸引观众注意力,提高互动性和观看体验。
2025-01-13 11:17:44
1553
原创 云平台一键部署【Tango】生成数字人视频,全身数字人
TANGO 是一项前沿的AI技术,旨在解决传统数字人生成技术中存在的局限性,如只能生成面部或唇形同步的视频片段。通过结合音频输入与参考视频中的动作数据,TANGO 能够生成与音频内容匹配的全身动作视频,使得生成的人物形象更加生动逼真。TANGO框架的开源和高效性为其在数字人领域的应用提供了广阔的前景。以下是几个潜在的应用场景:虚拟主持人: 利用TANGO框架,可以轻松生成与真实主持人相似度极高的虚拟主持人,他们可以在各种场合下代替真实主持人进行工作。
2025-01-07 16:38:51
920
原创 云平台一键部署【OminiControl】图像主题控制和空间精确控制
OminiControl 是一个最小但功能强大的FLUX通用控制框架,可以一个模型实现图像主题控制和深度控制。比如一个提示词加一个服装图片就能让生成的人物穿上服装。或者实现将图片中的物品放到生成图片的指定位置。主要有以下特点:通用控制:支持主题驱动控制和空间控制(例如边缘引导和绘画生成)的统一控制框架。极简设计:在保留原始模型结构的同时注入控制信号。仅向基础模型引入 0.1% 的额外参数。Subject-driven generation 主题驱动控制。
2024-12-30 15:36:54
750
原创 图像描述/字幕开源模型与数据集全览
图像描述/字幕(Image Captioning)是用文字描述图像内容的任务,属于计算机视觉和自然语言处理的交叉领域。大多数图像描述系统采用编码器-解码器(encoder-decoder)框架,其中输入图像被编码为中间表示形式,然后解码为描述性文本序列。最受欢迎的基准测试包括nocaps和COCO,模型的性能通常通过BLEU或CIDER指标进行评估。本篇汇总了图像描述/字幕相关开源模型与数据集,助力开发人员的研究进程,轻松获取所需算法与数据。
2024-12-30 15:18:54
2335
原创 全景分割开源宝藏
Panoptic Segmentation(全景分割) 是一种计算机视觉任务,结合了语义分割和实例分割,旨在提供对场景的全面理解。目的是将图像分割成具有语义意义的部分或区域,同时检测和区分这些区域内的各个物体实例。在给定的图像中,每个像素都会被分配一个语义标签,而属于“物体”(可计数的具有实例的物体,如汽车和人)类别的像素会被赋予唯一的实例ID。
2024-12-26 16:15:28
1016
原创 云平台一键部署【Llama3.3-70B-Instruct】
前几天 Meta 宣布推出一款新的 Llama 系列生成式 AI 模型:70亿参数的 Llama 3.3、又称 Llama 3.3 70B。CEO 扎克伯格在旗下社交媒体 Instagram 称,这是今年最后一次 AI 大模型更新,下一步就是明年 Llama 4 亮相。
2024-12-26 16:14:23
1069
原创 趋动云『社区项目』一键部署【HunyuanVideo】130 亿参数打造超牛腾讯混元视频生成
HunyuanVideo作为腾讯混元大模型在视频生成方向的重要成果,展现出了强大的技术实力。它拥有高达130亿的参数量,以文生视频为核心功能,当前生成视频的分辨率为1080p。不仅如此,其发展规划十分宏大,后续计划推出8k/4k分辨率版本,并且在功能拓展上也有着明确的方向,即将实现图生视频、视频自动配乐等功能,旨在为用户提供更加丰富、高质量的视频生成体验。HunyuanVideo是创作者的得力助手,能快速将灵感转化为视频。为企业提供新推广方式。企业依产品和目标输入提示,能快速生成高质量广告视频。
2024-12-17 11:07:54
582
原创 趋动云双12,两重福利,年末钜惠来袭!
为了回馈广大用户的支持,趋动云特别推出双12年末大促活动!活动期间(),用户充值即可享受丰厚的算力金返赠,同时趋动云大部分实例规格的CPU及内存配置比原先提升 33% 以上,部分规格甚至翻倍,让您的算力体验更上一层楼!赶紧参与,抓住年底的最后机会!
2024-12-13 11:01:36
228
原创 作为一个穷学生,我是这样玩大模型的!强烈推荐!
【Qwen2.5-Coder-32B-Instruc】在EvalPlus、LiveCodeBench和BigCodeBench这些编码能力的竞技场上,不仅摘得了桂冠,更是以媲美GPT-4o的非凡实力,傲立于代码生成领域的巅峰,集编程艺术与数学逻辑于一身,【Qwen2.5-Coder-32B-Instruc】无疑是当下开源宇宙中耀眼的创新之光,引领着智能编码的新纪元。经过上述步骤的引领,我们仿佛推开了一扇神秘的大门,眼前豁然开朗——那是编程助手/聊天机器人的WebUI界面,邀您共赴一场未来科技的盛宴。
2024-12-13 11:00:37
907
原创 云平台一键部署【Tülu 3】真・开源模型!性能超越Llama 3.1 Instruct
近期发布的 OpenAI o1在数学、代码、长程规划等问题上取得了显著提升,而背后的成功离不开后训练阶段强化学习训练和推理阶段思考计算量的增大。基于此,有人认为,新的扩展律—后训练扩展律(Post-Training Scaling Laws)已经出现,并可能引发社区对于算力分配、后训练能力的重新思考。他们不仅开源了两个性能超过Llama 3.1 Instruct相应版本的新模型——Tülu 3 8B 和 70B(未来还会有405B版本),还在技术报告中公布了详细的后训练方法。
2024-12-13 10:59:06
1030
原创 云平台一键部署【RMGB-2.0】高精度背景移除,一键抠图去背景
RMGB-2.0 模型已经在趋动云『社区项目』上线,无需自己创建环境、下载模型,一键即可快速部署,快来体验 RMGB-2.0 带来的精彩背景去除体验吧!项目入口:https://open.virtaicloud.com/web/project/detail/513607397403582464
2024-12-13 10:54:51
910
原创 风格迁移开源模型整理:加速艺术与技术创新的步伐
风格迁移(Style Transfer)任务就是将源图像(风格图像)的风格特征(如颜色、纹理、形状等)应用到目标图像(内容图像)上,从而生成一幅新的图像。在多个领域具有广泛的应用前景,如艺术创作、图像/视频编辑、视觉定位与广告设计等等。
2024-12-03 16:50:49
1277
原创 探索 GAN 的演变之路
2014 年,在论文中,首次提出了 GAN,其核心思想是“生成”与“对抗”。GAN 由一个生成器 G(Generator)和一个判别器 D(Discriminator)构成,前者用于捕捉数据分布,后者用于判别某个样本是否来自训练数据而非 G。进一步而言,G 的目标就是尽量生成真实的图片去欺骗判别网络 D,使D 犯错;而 D 的目标就是尽量把 G 生成的图片和真实的图片分别开来。二者互相博弈,共同进化。
2024-11-26 11:01:57
1239
原创 云平台一键部署【Qwen2.5-Coder-Artifacts】通义千问Coder-32B编程神器
通义千问团队开源「强大」、「多样」、「实用」的 Qwen2.5-Coder 全系列,致力于持续推动 Open Code LLMs 的发展。Qwen2.5-Coder-32B-Instruct 作为本次开源的旗舰模型,在多个流行的代码生成基准(EvalPlus, LiveCodeBench, BigCodeBench)上都取得了开源模型中的最佳表现,并且达到和 GPT-4o 有竞争力的表现。Qwen2.5-Coder-32B-Instruct 成为目前 SOTA 的开源代码模型,代码能力追平 GPT-4o。
2024-11-26 10:58:41
1316
原创 热门开源大模型集合!
自2022年年底ChatGPT的火爆出圈以来,大模型开发的热潮如雨后春笋般涌现,推动了人工智能技术的飞速发展。本文旨在收集并介绍近两年大热的开源大语言模型,为开发者提供一个快速了解并认识最新、最热大模型的窗口。此外,趋动云『社区项目』已经成功引入了多款热门的大语言模型,诚邀广大开发者前来体验与探索。
2024-11-26 10:45:26
805
原创 云平台一键部署【EchoMimic】语音驱动照片生成视频
EchoMimic的诞生,不仅仅是阿里在数字人领域的一次尝试,更是对现有技术的一次革新。传统的肖像动画技术,要么依赖音频驱动,要么依赖面部关键点驱动,各有利弊。EchoMimic的创新之处在于其新颖的训练策略。它不仅可以独立使用音频或面部关键点生成肖像视频,更可以通过音频和选定的面部关键点的组合,创造出更加丰富、细腻的动态效果。EchoMimic 模型已经在趋动云『社区项目』上线,无需自己创建环境、下载模型,一键即可快速部署,快来体验 EchoMimic带来的精彩体验吧!
2024-11-26 10:43:46
507
原创 云平台一键部署【Unique3D】单一图像生成高质量和高效的3D网格
Unique3D 是一个新颖的图像到3D框架,旨在从单视图图像中高效生成高质量的 3D 网格。该框架具有最先进的生成保真度和强大的通用性。与基于分数蒸馏采样(SDS)的传统方法相比,Unique3D 不仅能够提高生成速度,还能生成多样化的 3D 结果。Unique3D 的核心优势在于其高保真度和高效性。通过优化算法,该框架能够在较短的时间内生成高质量的 3D 网格,这对于实际应用来说非常重要。此外,Unique3D 还具备强大的泛化能力,能够适应不同的输入图像并生成相应的 3D 模型。
2024-11-05 15:28:57
707
原创 干货大分享!目标检测开源神器与主流数据集概览
目标检测是计算机视觉中的一项核心任务,旨在识别图像或视频中的特定物体并为其定位。该任务不仅需要确定物体的类别,还要提供物体的边界框,以便准确框住目标。目标检测技术广泛应用于自动驾驶、监控系统、人机交互和图像检索等领域。本文精心汇总了目标检测技术的前沿开源模型与数据集资源,旨在加速开发人员的研究进程,轻松获取所需算法与数据。
2024-11-05 15:09:03
666
原创 PRCV 2024 完美收官!AI飞跃,算力无限!
第七届中国模式识别与计算机视觉大会(The 7th Chinese Conference on Pattern Recognition and Computer Vision PRCV 2024)已于在圆满落幕。本届会议旨在汇聚国际国内模式识别和计算机视觉领域的广大科研工作者及工业界同行,分享最新理论研究进展和技术研发成果。
2024-10-28 14:14:38
391
原创 错过再等一年!趋动云周年庆 · 礼遇双十一,注册即享豪礼,充值更有翻倍惊喜!
各位探索者,趋动云小助手来啦!想驰骋 AI 世界,怎能少了英伟达 GPU 这位“超级跑车”?但买车太贵?别怕,趋动云就是你的“租车”首选!现在,趋动云新用户福利大放送!只需通过我的专属链接,红包,先到先得,手慢者无!长按下方专属二维码,然后识别“注册”即可。方式二:或者点击以下链接,即刻注册:另外,小助手领取新客任务,完成后。(悄悄告诉你由于小助手太好说话,加他除领取新客算力外,还能获得更多免费算力。
2024-10-28 14:13:58
472
原创 一文尽享 Matting(抠图)主流开源模型、数据集
本文精心汇总了 Matting(抠图)技术的前沿开源模型、主流算法以及数据集资源,旨在加速开发人员的研究进程,轻松获取所需算法与数据。
2024-10-10 10:21:58
2327
原创 云平台一键部署【mPLUG-Owl3-7B】阿里开源多模态大模型
mPLUG-Owl3-7B模型作者来自阿里mPLUG团队,他们一直深耕多模态大模型底座,以LLaVA-Next-Interleave为基准,mPLUG-Owl3将模型的First Token Latency缩小了6倍,且单张A100能建模的图像数目提升了8倍,达到了400张图片,且该模型在单图像、多图像和视频任务中的表现依然非常出色。在此之前还提出了:高效多模态底座mPLUG系列模块化多模态大语言模型底座mPLUG-Owl系列文档理解底座mPLUG-DocOwl系列。
2024-10-10 10:18:27
665
原创 图像超补全(Outpainting)技术的前沿模型与数据集资源汇总
lmage outpainting”这一概念是由斯坦福大学 CS230 课程的 Mark Sabini 等人提出,相较于图像修复技术,lmage outpainting 更进一步,能够从给定的图像片段中“补全”出缺失的外延部分,以精妙的方式补全画面,从而构建出一个完整且连贯的视觉世界。另外,所提出的论文在吴恩达的斯坦福大学 CS230 课程中获得了期末 Poster 的第一名。论文地址:https://arxiv.org/pdf/1808.08483。
2024-09-25 16:56:38
1700
原创 异构AI算力资源池:智能世界的新型基础设施
OrionX支持将不同品牌如英伟达、寒武纪、华为海思、海光等构建成一个异构资源池,上层业务人员无须关心底层具体调用哪个品牌、哪个型号的算力资源,底层算力对上层业务人员完全透明,业务人员只需关注需要多少张算力卡,以及需要多少算力、显存资源,进行按需申请即可。通过软件定义的方式,可以构建一个灵活的算力资源池,满足不同应用对于计算能力、存储能力和网络能力的需求,同时实现资源的按需分配。通过软件定义异构AI算力资源池,可以实现对算力资源的精细化管理和优化调度,从而提高算力的利用率和效率。
2024-09-23 11:01:39
1752
原创 图像修复(Inpainting)技术的前沿模型与数据集资源汇总
图像修复(Image Inpainting)是一种计算机视觉技术,旨在填补图像中的缺失区域或去除图像中的不需要部分,使其看起来自然且无明显痕迹。其目标是根据图像的上下文信息和周围像素来推断和重建缺失区域的内容,以生成逼真且一致的图像。Inpainting 技术的应用广泛,包括但不限于:图像修复:用于修复老旧或损坏的照片,例如修补划痕、污渍或褪色区域。视觉内容编辑:在照片/视频编辑中,填充被裁剪或移除的部分,或替换特定区域的内容。;移除不需要的对象或元素,实现无缝过渡。
2024-09-18 09:36:36
3150
原创 见刊丨“GPU池化”术语发布
在实践中,很多企业AI系统都是通过物理形式直接调用GPU,GPU并没有像云场景中计算、存储、网络虚拟化一样实现资源池化。资源池的核心是通过软件的方法,将各种硬件(CPU、内存、磁盘、网络等)变成可以动态管理的“资源池”,从而提升资源的利用率,简化系统管理,实现资源整合,让IT对业务的变化更具适应力。GPU池化也是遵循这样的理念,对物理GPU进行抽象,软件化后形成一个统一的资源池,方便用户按需对GPU资源进行有效调用,无需关注实际物理GPU的大小,数量,型号以及安插的物理位置。
2024-09-14 15:08:02
471
原创 GPU池化如何帮助用户灵活“避坑”
随着5G、人工智能、云计算、大数据、IoT等技术的推动,万物互联的时代即将到来。因为大量AI应用都依赖GPU的超强计算能力,可以预见算力需求将越来越大,GPU在数据中心的地位也会越来越高。然而理想是丰满的,现实却是骨感的,GPU的计算能力虽然很强,但GPU总是因各种原因“罢工”:不是因为GPU故障,就是因为GPU资源不够,导致上层AI应用无法安全、稳定地运行,使AI应用管理员很狼狈,每天总是疲于奔命。究其。
2024-09-14 14:50:00
1098
原创 GPU池化为实现Robotaxi按下快进键
该报告从智慧共享出行的远大蓝图讲起,认为随着汽车产业“电气化”、“智能化”、“网联化”、“共享化”进程的不断发展,集“四化”于一身的Robotaxi代表了未来地面共享出行的理想形态。为了突破技术桎梏、推动商业落地,行业参与者从各自角度出发,或通过技术和产品的打磨,或通过生态和模式的创新,或通过政策和标准的制定,推动着自动驾驶行业健康、有序发展,稳步前进。在这个背景下,Robotaxi行业参与者众多,也需要各路“玩家”建立统一的商业视界,在数据高效流通的世界内通力协作,建立智慧共享出行的新模式。
2024-09-12 14:18:54
500
原创 干货分享丨智造底座——AI算力池化的必要与实践
GEMINI AI训练平台以云原生容器服务为基础架构,调用云资源,配合人工智能、大数据以及分布式计算框架,服务于企业的AI算法开发、模型训练以及AI应用部署需求。诸如自动驾驶、电信、银行、互联网等领域的头部客户都已开始采用趋动科技的解决方案,实现算力的灵活调配,从而降低IT成本,提高生产运营效率。然而在现实应用中,作为高级图形处理和算力支持的GPU利用率却并不高,传统的物理绑定GPU方式正在束缚算力资源,让其无法发挥应用的价值,更别提在高级别渲染、虚拟现实和深度学习等项目中灵活的进行资源协作。
2024-09-12 14:06:47
458
原创 OrionX vGPU研发测试场景下最佳实践之SSH模式
目前很多企业在做AI开发的场景时,对GPU资源的管理都是非常简单粗暴的。他们大多都是以开发小组为管理单位、由运维以台为单位分配给开发工程师使用。而在AI开发中涉及开发的场景和测试的场景,很多是将开发测试甚至训练任务都放在一起来使用资源,这时用户就会在资源使用方面遇到一些问题:从管理角度看,用户会遇到资源无法统一管理和调度、也无法做到很好的监控和资源统计的问题;从算法人员的角度看,他们面临的问题就是资源紧张须相互协调、无法灵活动态地使用和申请资源的问题。
2024-09-12 11:32:58
653
原创 OrionX vGPU 研发测试场景下最佳实践之Jupyter模式
通过pytorch的api我们可以直接拿到GPU的信息,跟物理卡是一致的,物理卡是T4,vGPU同样是T4,此时vGPU是分配了一块卡,所以显示的数量也是一样的,根据pytorch拿到的信息我们可以发现对于上层的框架而言调用vGPU资源跟调用物理GPU资源是一样的,不会有什么改变,那对于上层的应用来说也是透明的使用vGPU资源。我们使用了pytorch 1.8.1 cuda 10.2的镜像,然后将ubuntu的软件源改成阿里云的,同时删除nvidia的源,否则会因为网络问题无法安装其他软件。
2024-09-11 14:57:03
1480
5
原创 OrionX vGPU 研发测试场景下最佳实践之CodeServer模式
在之前的文章中,我们讲述了OrionX vGPU基于SSH模式、以及Jupyter模式下的最佳实践(文末附回顾链接~),今天,让我们走进CodeServer模式的最佳实践。• CodeServer模式:微软的VSCode的服务器版本,近年很多企业在采用该工具,使用资源的方式类似Jupyter,也是部署在虚机或者容器当中。
2024-09-11 14:48:26
1079
原创 OrionX GPU算力池助力AI OCR场景应用
OrionX通过软件定义AI算力,颠覆了原有的AI应用直接调用物理GPU的架构,增加软件层,将AI应用与物理GPU解耦合,通过构建GPU资源池,对资源池中的GPU资源进行统一管理、维护和调配,资源池的大小可以根据系统管理需求而定,比如,可以将数据中心内所有的物理GPU纳入资源池中,也可以将一个GPU服务器作为一个资源池。通过软件定义算力的方式,将传统GPU资源以整卡为单位进行分配,变为以算力1%,显存1MB为基本单位进行资源提供,实现GPU按需分配,整体利用率提升明显。
2024-09-11 14:27:07
1536
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人