
AI开源项目
文章平均质量分 63
天下琴川
qq:309299817
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
通义开源|QwenLong-L1-32B:长文本深度思考模型,强化学习破解长上下文推理难题
近日,阿里开源长文本深度思考模型QwenLong-L1!原创 2025-05-28 14:48:11 · 453 阅读 · 0 评论 -
GitHub开源|AI顶会论文中文翻译PDF合集(gpt-translated-pdf-zh)
gpt-translated-pdf-zh” 是由用户 it-ebooks-0 在 GitHub 上维护的公共代码库,该项目汇集了大量计算机科学、数学、算法、AI及机器学习领域的经典教材与前沿文献中文译本,以PDF格式提供免费下载服务,帮助学习者快速了解学习。原创 2025-05-28 14:43:43 · 921 阅读 · 0 评论 -
改写视频生产流程!快手SketchVideo开源:通过线稿精准控制动态分镜的AI视频生成方案
Sketch Video 是一种通过手绘生成动画的技术,具有超强吸引力、高效信息传达和强烈情感共鸣的特点。其核心技术包括智能运动预测算法、多模态控制体系和实时渲染引擎,能够将静态笔触转化为自然运动,并支持多种草图指令系统,输出4K级品质的动画。Sketch Video 广泛应用于市场营销、教育教学和个人创意展示等领域,能够生动地展示产品特点、形象化抽象知识,并作为创意展示平台。相关资源可通过GitHub和项目官网获取。原创 2025-05-21 09:08:47 · 601 阅读 · 0 评论 -
Adobe联合香港城市大学发布Custom-SVG:下一代可编程矢量图形生成框架
Custom-SVG 是由 Adobe 和某城市大学联合开发的两阶段风格定制生成框架,专注于基于文本提示生成高质量且风格定制的 SVG 图形。该框架结合了前馈模型的高效性和扩散模型的强大生成能力,能够快速生成结构规整且风格一致的矢量图形,适用于设计、图标生成等多种场景。其主要功能包括保持 SVG 结构规则性、实现风格定制、高效生成和语义对齐。技术原理上,Custom-SVG 基于路径级表示的 T2V 扩散模型训练,利用 Transformer 架构理解文本语义并生成对应的 SVG 结构,同时通过图像扩散先验原创 2025-05-21 09:02:49 · 681 阅读 · 0 评论 -
B站开源AniSora!最强动漫视频生成模型,一键生成专属动画
AniSora 是 B 站团队开源的一款动漫视频生成模型,具备体系革新、工业化数据和技术运镜三大核心特点。通过引入全球首个动画专项评估生成框架 AniBench,AniSora 在人物微表情连续性上显著超越现有技术。其千万级高质量动画素材库和跨模态对齐算法,确保了生成内容的准确性和丰富性。此外,AniSora 支持 16 种导演级运镜参数调控,并实现超现实动态模拟,提升了视频的专业感和视觉冲击力。用户只需上传素材并输入描述词,即可轻松生成动漫视频。AniSora 在 Vbench 和 AniSora-Ben原创 2025-05-19 16:34:29 · 459 阅读 · 0 评论 -
Salesforce开源多模态模型BLIP3-o!图像理解/生成双SOTA,代码/权重/数据集全开放
BLIP3-o 是一个创新的多模态模型,结合了自回归模型和扩散模型的优势,实现了图像理解与生成的双重突破。其核心特点包括自回归与扩散模型的结合、CLIP 特征扩散、顺序预训练策略、流匹配损失函数以及基于 GPT-4o 的指令调整数据集。BLIP3-o 支持多种多模态任务,如文本到文本、图像到文本、文本到图像、图像到图像以及混合训练。为了推动研究发展,BLIP3-o 的代码、模型权重和数据集已全部开源,并提供了 Demo 体验网站。这一模型展示了多模态技术的巨大潜力,为未来研究提供了新的方向和工具。原创 2025-05-19 15:36:19 · 532 阅读 · 0 评论 -
3D生成新突破:阶跃星辰Step1X-3D开源,可控性大幅提升
Step1X-3D 采用 专为3D优化的混合VAE-DiT架构,生成 TSDF(截断有符号距离场) 内部表示,确保模型 结构完整、无破面漏点,同时精准还原 硬边、曲面等复杂几何特征。基于 SD-XL深度优化 的纹理生成模块,通过 几何条件(法线+位置信息)精准引导,结合 潜在空间多视图同步技术,确保纹理 高保真、多视角一致,避免传统3D生成中的贴图错位问题。🎮 在线Demo:https://huggingface.co/spaces/stepfun-ai/Step1X-3D。性能评测:领先的3D生成能力。原创 2025-05-16 09:43:08 · 494 阅读 · 0 评论 -
突破性开源模型!通义万相VACE实现视频生成与编辑一体化
Wan2.1-VACE 模型集成了六大核心功能,包括文生视频、图生视频、视频重绘、局部编辑、背景扩展和时长延展。用户可以通过单一架构实现多任务的灵活组合,例如将竖版《蒙娜丽莎》静态图扩展为横版动态视频,并为其添加眼镜,同时完成画幅扩展、时长延展和图像参考三项任务。:在2025年央视春晚中,Wan2.1-VACE 助力《笔走龙蛇》节目生成“子弹时间”特效,并参与《难忘今宵》的舞美设计,将城市地标转化为动态花灯。:教师将复杂知识点转化为动画视频,例如通过图像参考生成功能,将静态电路图扩展为动态演示。原创 2025-05-16 09:35:56 · 729 阅读 · 0 评论 -
降维打击!国产Matrix-Game开源:键盘操控AI生成无限世界,效果炸裂
昆仑万维最新开源的Matrix-Game交互式世界基础模型,正在重新定义虚拟世界的创造方式。这款突破性技术将彻底改变游戏开发、AI训练和数字内容创作领域。原创 2025-05-15 08:53:39 · 246 阅读 · 0 评论