- 博客(113)
- 资源 (4)
- 收藏
- 关注
原创 机器人不再笨手笨脚!Meta推出新一代视觉世界模型V-JEPA 2
V-JEPA 2 是一种自监督方法,用于训练视频编码器,它使用互联网规模的视频数据,在运动理解和人类行为预测任务上达到了最先进的性能。
2025-06-13 10:26:54
177
原创 PlayDiffusion上线:AI语音编辑进入“无痕时代”
PlayDiffusion是一款AI语音修复模型,支持细粒度的语音编辑,能够精准修改语音内容并保持与原语音的无缝衔接,适用于语音播报和有声读物。通过保留说话者特征,确保修改后的语音在音色和风格上保持一致。
2025-06-06 10:41:11
433
原创 AI 智能体新时代开启:Claude 4 让机器也能“专注思考数小时”
Claude Opus 4 是迄今最强大的模型,也是全球最好的代码模型,在 SWE-bench(72.5%)和 Terminal-bench(43.2%)上领先。在复杂、长时间运行的任务和代理工作流程中表现出持续的性能。
2025-05-27 10:53:33
345
原创 轻量级视觉语言模型 Dolphin:高效精准的文档结构化解析利器
Dolphin(基于异构锚点提示的文档图像解析)是一种遵循分析-解析范式的创新多模态文档图像解析模型。
2025-05-26 16:39:24
456
原创 Telegram快读助手:telegram link summarizer agent,可以总结聊天中的各种链接,提取内容并生成简洁摘要
Telegram快读助手是一款开源工具,能够总结分享的各种链接内容,包括网页文章、PDF、社交媒体帖子和视频,帮助用户快速判断是否需要深入阅读。支持智能路由,自动识别链接类型并选择处理方式。
2025-05-20 09:57:10
269
原创 AG-UI:AI 用户交互协议,解决了Agent与前端应用连接和通信的问题
ag-ui是一种新协议,用于AI Agent与前端应用的交互,简化了AI客服的实现,采用轻量级事件驱动设计,支持多种传输方式和实时功能,提升了人机协作体验。
2025-05-14 10:16:58
508
原创 智能意图识别 + 内容定位,contextgem重构文档处理逻辑
contextgem是一款AI工具,能够从文档中提取结构化数据,自动理解提取意图,适合寻找合同条款、报告数据和论文观点,支持高效信息定位和复杂提取的自动化。
2025-05-13 10:01:50
444
原创 代码转换+编辑+智能体工作流,Gemini 2.5 Pro全拿下!
谷歌的Gemini 2.5 Pro预览版(I/O 版)的抢先体验版提前出来了!是2.5 Pro的升级版,构建交互式的Web应用能力是其强项。
2025-05-08 10:03:20
223
原创 (开源)视频画面增强模型:Ev-DeblurVSR (可以解决视频画面不清晰的问题)
Ev-DeblurVSR 代表了模糊视频超分辨率领域的重要进展,通过整合事件信号,它有效解决了传统方法中的关键限制,并在性能和效率上设定了新基准。该工作为监控、自动驾驶等需要高品质视频增强的领域开辟了新的可能性。
2025-04-29 09:31:01
1264
原创 源超长视频生成模型:FramePack
FramePack 是一种下一帧(下一帧部分)预测神经网络结构,可以逐步生成视频,将输入上下文压缩为固定长度,使得生成工作量与视频长度无关。即使在笔记本电脑的 GPU 上,FramePack 也能处理大量帧,甚至使用 13B 模型。
2025-04-22 09:58:07
604
原创 利用DeepSeek R1的CoT推理能力和Claude代码生成能力的融合AI助手:deepclaude
DeepClaude利用 DeepSeek R1 的推理功能以及 Claude 的创造力和代码生成功能,以及统一的 API 和聊天界面。
2025-04-09 18:04:01
161
原创 Versatile-OCR-Program:可以从复杂的教育材料(如试卷)中提取结构化数据的开源多模态OCR工具
Versatile-OCR-Program是一款多模态OCR工具,能够从复杂的教育材料中提取结构化数据,支持多语言文本、数学公式、表格和图表的提取,并以JSON或Markdown格式输出,适用于教育场景。
2025-04-08 15:42:17
536
原创 Embodied-Reasoner:协同视觉搜索、推理和动作以实现具身交互任务
Embodied-Reasoner:协同视觉搜索、推理和动作以实现具身交互任务
2025-04-07 10:47:23
321
原创 450亿参数加持!字节跳动 开源MegaTTS3 模型,开启语音合成新时代
MegaTTS3 是由字节跳动推出的一款超大规模语音合成模型,参数量高达 450亿 ,是目前业内最强大的 TTS 模型之一。
2025-04-02 10:42:07
625
原创 阿里端到端全模态模型Qwen2.5-Omni开源,文本/图像/音频/视频一网打尽
Qwen2.5-Omni核心是全能多模态理解生成,支持文本、图像、音视频输入,并能输出文本和语音,支持实时音视频交互,支持分块输入和即时输出,理解和执行语音指令能力强,效果可媲美文本输入。
2025-03-28 11:02:26
520
原创 最强原生多模态+推理模型:Gemini2.5 Pro (特别适合长文本处理),AI智商天花板
Gemini 2.5 Pro 在一系列需要高级推理的基准测试中处于行业领先地位。无需增加成本的测试时间技术,如多数投票,2.5 Pro 在数学和科学基准测试中如 GPQA 和 AIME 2025 中领先。
2025-03-27 15:36:36
453
原创 可以媲美YOLO的开源实时目标检测模型:RF-DETR,在 COCO 上达到 SOTA 水平,并专为微调设计
RF-DETR 是第一个在 Microsoft COCO 基准测试中超过 60 AP 的实时模型,同时在基础尺寸下具有竞争力。
2025-03-26 10:57:11
1040
原创 AI生成定理动画革命:TEA双智能体架构揭秘,视觉诊断超越文本推理
TheoremExplainAgent(TEA),一个旨在通过多个专业代理自动生成视频的代理型管道,如图 3 所示。该过程从规划代理开始,根据指定的定理创建一个高级视频计划。
2025-03-24 10:23:11
627
原创 阶跃星辰开源300亿参数视频模型Step-Video-TI2V:运动可控+102帧长视频生成
阶跃星辰(StepFun)正式开源其新一代图生视频模型 Step-Video-TI2V ,该模型基于300亿参数的Step-Video-T2V训练,支持文本与图像联合驱动生成长达102帧的高质量视频,在运动控制与场景适配性上实现突破。
2025-03-21 10:18:35
969
原创 多模态文档处理新标杆:开源SmolDocling以256M参数精准识别文本、公式、图表
SmolDocling 是一种多模态图像文本到文本模型,旨在实现高效的文档转换。它保留了 Docling 最受欢迎的功能,同时通过对 DoclingDocuments 的无缝支持确保与 Docling 完全兼容。
2025-03-20 15:26:59
866
原创 Mistral AI发布开源多模态模型Mistral Small 3.1:240亿参数实现超越GPT-4o Mini的性能
Mistral AI发布开源多模态模型Mistral Small 3.1:240亿参数实现超越GPT-4o Mini的性能
2025-03-19 16:52:25
1248
原创 首款3D建模专用的AI员工BlenderMCP
BlenderMCP 通过模型上下文协议(MCP)将 Blender 连接到 Claude AI,使 Claude 能够直接与 Blender 交互和控制。这种集成实现了辅助提示的 3D 建模、场景创建和操作。
2025-03-13 10:01:10
936
原创 推荐几个热门的开源AI图像处理模型
Real-ESRGAN 通用图像/视频修复的实用算法,使用纯合成数据训练真实世界的盲超分辨率;SUPIR 用于野外真实照片图像恢复的实用算法;CodeFormer 用于人脸修复,面向具有代码本查找变换器的鲁棒盲人脸修复......
2025-03-12 10:39:21
1308
1
原创 OlmOCR,被誉为可在本地部署的顶尖OCR大模型
allenai/olmocr是由Allen人工智能研究所(AI2)开发的一个开源工具包,旨在高效地将PDF和其他文档转换为结构化的纯文本,同时保持自然阅读顺序。
2025-03-11 09:53:47
1192
原创 全球第一个内化agent工具使用能力的开源推理模型:QWQ-32B (国产开源)
QWQ-32B:阿里重磅推出与deepseek媲美的推理模型QWQ,全球第一个内化agent工具使用能力的开源推理模型,可大大降低本地化部署成本,只需要48G显存即可具备deepseek-r1的效果。
2025-03-10 11:58:35
905
转载 最新技术:YOLO-World-V2.1 实时进行开放词汇目标检测
YOLO-World 提出了一种先提示后检测的范式,用于高效的用户词汇推理,将词汇嵌入作为参数重新参数化到模型中,实现了更快的推理速度。
2025-03-07 10:28:01
167
原创 人脸识别技术如何改善金融交易的安全性和可靠性?
人脸识别技术是一种基于人脸特征进行身份认证的技术。随着技术的不断进步和应用的广泛推广,人脸识别技术已经在金融领域得到了广泛的应用。
2023-07-14 10:21:36
626
原创 使用面部识别技术有哪些潜在缺点?
随着人工智能技术的不断发展,面部识别技术已经被广泛应用于安全、金融、医疗、教育等领域。人脸识别技术可以快速、准确地识别人脸,从而提高工作效率,提供更好的安全保障等。但是,面部识别技术也存在一些潜在缺点和隐患。
2023-07-13 21:10:51
2176
原创 面部识别技术VS其他生物识别技术:哪种更安全、更准确、更可靠?
面部识别技术与其他生物识别技术相比,具有技术原理简单、应用场景广泛、准确性高、安全性较好、可用性较高等优点。但面部识别技术也存在一些局限性,如受到光线、姿态、表情等因素的影响,易受到攻击等。因此,在实际应用中,需要根据具体应用场景和需求,选择适合的生物识别技术,并采取相应的安全措施,保护个人隐私和数据安全。
2023-07-11 13:08:09
2023
原创 TensorFlow、PyTorch、MXNet等深度学习框架在对象检测和语义分割中的优缺点分析
对象检测和语义分割是计算机视觉领域的两个重要任务。随着深度学习技术的不断发展,出现了很多流行的深度学习框架,如TensorFlow、PyTorch、MXNet、Caffe等。这些框架提供了丰富的神经网络模型和算法,方便开发者快速搭建和训练自己的模型。
2023-07-10 16:07:10
1792
原创 保护个人隐私、确保公平性、提高安全性:如何规范面部识别技术?
面部识别技术是一种通过计算机视觉技术,对人脸特征进行捕捉、提取、匹配和识别的技术。它具有高效、便捷、准确等优点,已被广泛应用于安全监控、金融支付、社交娱乐等领域。然而,随着面部识别技术的广泛应用,也引发了一系列的隐私、公平、安全等问题,其中包括潜在的缺点。
2023-07-07 13:19:32
432
原创 人脸识别技术助力智能交通 从门禁到支付再到交通指挥
人脸识别技术在智能交通领域的应用前景广阔,但其中也存在着一些技术挑战和隐私保护问题,需要加强技术研究和隐私保护措施。未来,随着人工智能技术的不断发展和进步,人脸识别技术在智能交通领域的应用将会更加广泛和深入,为智慧城市建设和交通管理带来更多的便利和效益。
2023-07-06 14:50:44
404
原创 对象检测和语义分割有哪些实际应用?
对象检测和语义分割是计算机视觉领域中两个重要的任务。它们在图像识别、智能交通、医学影像分析等领域具有广泛的应用。
2023-07-05 12:08:39
255
原创 计算机视觉领域的双璧之称 对象检测与语义分割
对象检测和语义分割是计算机视觉领域中两个重要的任务。它们在图像识别、智能交通、医学影像分析等领域具有广泛的应用。
2023-06-29 14:35:34
853
原创 基于分形的置乱算法和基于混沌系统的置乱算法哪种更安全?
在信息安全领域中,置乱算法是一种重要的加密手段,它可以将明文进行混淆和打乱,从而实现保密性和安全性。常见的置乱算法包括基于分形的置乱算法和基于混沌系统的置乱算法。
2023-06-27 17:26:32
1208
原创 图像分析技术大比拼:图像分类、图像识别、目标检测的优缺点分析与算法比较
图像分类、图像识别和目标检测是计算机视觉领域中三个重要的任务,它们之间有些许的关系,但也有很大的区别。在实际应用中,需要根据具体的场景和需求选择合适的任务和算法。
2023-06-26 15:27:27
8349
原创 数据预处理和模型架构是提高人脸识别模型准确率的关键
人脸识别技术作为计算机视觉领域的一项重要技术,被广泛应用于安全监控、身份验证、智能交通、人脸支付等领域。如何提高人脸识别模型的质量,是人脸识别技术研究的重要方向之一。
2023-06-21 13:43:42
1374
原创 数据预处理和模型架构是提高人脸识别模型准确率的关键
面部分析技术是一种基于计算机视觉和机器学习的技术,通过对人脸图像的分析,可以识别人脸的各种属性,比如年龄、性别、表情、情绪等等。这种技术在人脸识别、安防监控、人机交互、虚拟现实等领域有着广泛的应用。然而,面部分析技术的数据集问题一直是制约其发展的一个瓶颈。
2023-06-20 11:46:51
373
原创 提高面部分析技术准确性和智能化的关键策略
随着人工智能技术的发展,面部分析技术已经成为了人工智能领域的一个重要研究方向。面部分析技术可以对人脸图像进行识别、分析和比对,广泛应用于人脸识别、身份认证、安防监控、医疗诊断等领域。然而,面部分析技术的准确性和智能化程度还有待提高。
2023-06-19 09:23:37
319
原创 常用的几种图像置乱算法
图像置乱算法是一种用于保护图像信息安全的技术,它可以将原始的图像信息进行加密和混淆,使得未经授权的用户无法获取到原始的图像信息。在信息安全领域中,图像置乱技术被广泛应用于图像加密、数字水印、安全传输等方面。
2023-06-17 16:35:50
2883
数字图像分割色彩空间的转换-案例分享 餐厅火腿截面轮廓
2023-04-18
掌握Nginx HTTP-FLV视频流服务器 的安装、配置、测试和Web调用技巧,适合初学者和进阶者使用
2023-04-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人