人工智能研究所-优快云博客

原创谷歌开源单个 GPU 可运行的Gemma 3 模型，27B 超越 671B 参数的 DeepSeek

不仅参数少，模型小，还可以在单个 GPU 上面运行，普通电脑也可以直接跑大模型了，而 DeepSeek 系列的模型需要 32 个 GPU，不是普通玩家玩的模型。在 LMSys Chatbot Arena 上，Gemma 3 27B IT 的 Elo 分数为1339，跻身前 10 个最佳模型之列，包括领先的封闭模型。而且它是开源的，开发者可以根据需求进行定制！与 Gemma2 相比，虽然模型参数没有增加，但是上下文长度增加到了 128K，而且还是一个多模态的模型，不仅识别文本，还支持图片与视频内容的交互。

2025-04-05 09:04:25 946

原创使用OpenCV与Python编写自己的俄罗斯方块小游戏

俄罗斯方块小游戏是当年风靡一时的小游戏，该游戏由一个棋盘组成，该棋盘跨度为10个单元格，高度为20个单元格，如下所示。俄罗斯方块小游戏关于此小游戏的规则，我们不再介绍，本期文章主要用代码来实现，我们知道俄罗斯方块小游戏主要有如下7个方块组成，我们在代码中使用字母“ O”，“ I”，“ S”，“ Z”，“ L”，“ J”和“ T”表示它们。

2025-03-16 16:45:00 911 2

原创八年来，Google首次挑战transformer模型，新框架一战成名

并基于长期记忆模块构建了 Titans 模型架构。从 transformer 模型发布后，至今也有 8 年时间了，8 年间，transformer 模型一跃成为了 AI 大模型的核心框架，虽然 transformer 模型存在一定的缺点，但是并没有一个更好的框架来取代 transformer 模型，因此主流的 LLM 大语言模型，甚至很多计算机视觉模型都是采用了 transformer 模型，当然，随着模型的使用，人们也相继推出了相关 transformer 模型的改善。Titans 模型表现。

2025-03-16 11:12:28 865

原创利用深度学习进行Web浏览器视频电话会议中的背景更换

Meet的新功能是通过MediaPipe开发的，MediaPipe是Google的开源框架，用于跨平台可定制的ML解决方案，适用于实时和流媒体，它还支持ML解决方案，例如设备上的实时手部，虹膜和身体姿势追踪。任何设备上解决方案的核心需求是实现高性能。为此，MediaPipe的Web管道利用了WebAssembly，这是一种专为Web浏览器设计的低级二进制代码格式，可提高执行繁重计算任务的速度。在运行时，浏览器将WebAssembly指令转换为本机代码，其执行速度比传统的JavaScript代码快得多。

2025-03-14 12:00:00 730

原创 YOLOV12竟抛弃祖传架构？看Transformer注意力如何突破物理边界

YOLOv12 的核心是将注意力机制融入 YOLO 框架，以提升目标检测的精度，同时保持 YOLO 系列一贯的快速推理速度。论文的核心观点在于，尽管注意力机制在建模能力上优于 CNN，但由于计算效率和内存访问的限制，以往的 YOLO 模型主要依赖 CNN。对象检测中，注意力机制帮助模型关注可能包含对象的区域，减少无关信息的干扰。其中包括新的骨干网络，新的无锚网络检测头和新的损失函数功能。YOLOv3 (2018)：采用更深的 Darknet-53，支持多尺度预测，增强对小对象的检测。

2025-03-14 07:00:00 1037

原创无人自动驾驶技术之使用OpenCV进行相机校准

照相机与摄像头，是机器人，人工智能，计算机视觉，工业自动化甚至娱乐行业等多个领域的组成部分。在我们使用此设备时，不仅要了解照相原理外，需要使用特殊的技术对摄像头进行相机校准，特别在自动化驾驶上，需要实时的对照相机进行校准操作

2025-03-11 07:00:00 24

原创 5天5连击！DeepSeek开源周改写AI规则，到底什么技术成就了DeepSeek

DeepSeek 开源周（2025年2月24日-28日）于28 号正式结束，当 OpenAI 当年连续进行圣诞特辑的时候，我们只有膜拜的份。但是当 DeepSeek 横空出世的时候，全世界的眼光都关注在了中国的科技公司上。过去一周的时间，DeepSeek也连续一周进行了开源讲座，那么本周DeepSeek都开源了什么？

2025-03-10 22:49:41 719

原创 USRNet端到端深度学习网络实现图片视频的超分辨率与清晰度

上期文章我们分享了基于OpenCV的超分辨率的代码实现，哪里主要使用到了EDSR、ESPCN、FSRCNN、LapSRN等模型，虽然使用OpenCV能够实现超分辨率，但是图片的清晰图并没有增加，当有一张稍微模糊的图片时，增加分辨率的同时，我们也更希望提高图片的清晰图，如上图的图片，本期文章，我们介绍一下USRNet模型结构

2025-03-05 07:15:00 31

原创一步一步带你实战 FLUX.1 文生图大模型，在线体验一键出图

上期图文教程，我们分享了 flux.1 文生图大模型以及flux.1 的最新工具集，但是有网友反馈代码运行提示错误，其实代码并没有问题，只是基于 hugging face 的第三方库需要获取相关的权限，然后代码才能正常下载对应的模型权重，本期我们首先先从头介绍一下如何使用代码，并能够正常出图。

2025-03-05 07:00:00 161

原创使用Python代码制作贪吃蛇小游戏，你也可以打造自己的AI

上期视频，我们分享了一个AI来玩贪吃蛇的视频，本期我们讲解一下其基础代码，利用本代码自己也可以写游戏了。

2025-03-03 23:17:18 690

原创使用黑森林实验室发布的Flux.1 文生图模型进行 UI 创作以及 PS 操作

Flux 1.1 Pro Ultra： Flux1.1 Pro 是 Black Forest Labs 提供的旗舰型号。它旨在创建高分辨率图像，非常适合需要精细细节和清晰视觉效果的任务。此版本针对图像清晰度和精度至关重要的场景进行了优化，例如广告、印刷媒体以及艺术图片等。

2025-03-03 23:04:39 1100

原创解锁DeepSeek完全体：2025官方提示词指南与高阶技巧

如何写好提示词，成为了如何高效使用各类人工智能工具的首要前提，而大伙的 Deepseek 官方也提供了提示词的各类模板，包含：代码改写，代码解释，代码生成，内容分类，格式化输出，角色扮演，散文写作，诗歌创作，文案大纲生成，宣传标语生成，模型提示词生成以及翻译等各个场景上给出了提示词案例。针对代码生成任务，需要写明使用什么编程语言，以及要完成的代码功能，并指定输出格式，例如如下 HTML 的代码，若不指定输出一个文件到 HTML 中，生成的代码很有可能包含 js,css等多个文件。

2025-02-25 22:52:37 814

原创使用opencv实现深度学习的图片与视频的超分辨率

什么是视频与图片的超分辨率，总结一下便是给一张分辨率比较低的图片，进行超分辨率的处理后，生成比较清晰的高分辨率的图片，上图图片完美解释了超分辨率的过程，由于不同的算法不同，处理的结果也不相同，本期我们介绍一下如何进行图片的超分辨率的处理。

2025-02-13 19:04:39 423

原创字节跳动发布国产 AI 编程器 Trae，对标 cursor，免费使用Claude 3.5

Trae是字节跳动推出的全新AI集成开发环境，集成Claude 3.5与GPT-4o双模型，专为中文开发者优化设计。作为首款实现端到端AI编程的国产工具，Trae正在引发全球开发者社区关注。Trae不仅是一款工具革新，更是中文开发者进入AI优先时代的通行证。

2025-02-13 19:00:24 1211

原创 Makesense AI 工具为深度学习照片添加标签

makesense.ai是可免费使用的用于为照片加标签的在线工具。由于使用了浏览器，因此不需要任何复杂的安装-只需访问网站即可开始使用。

2025-01-26 10:10:12 377

原创开源先锋DeepSeek-V3 LLM 大语言模型本地调用，打造自己专属 AI 助手

DeepSeek-V3是一个强大的混合专家 (MoE) 语言模型，总共有 671B 个参数。为了实现高效的推理和经济高效的训练，DeepSeek-V3 采用了多头潜在注意力机制 (MLA) 和 DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中得到了彻底的验证。

2025-01-26 10:06:57 3070

原创 Yolo 对象检测系列更新无止境，Ultralytics 发布 Yolov11 更快，更强

本想打算更新下Yolov10 模型，但是Yolov11 就紧跟发布，不得不说人工智能是真的卷。而真正让人工智能领域更加内卷的便是今年的诺贝尔物理与化学奖都颁给了 AI 领域的大牛，不得不说 AI 是真的卷。

2025-01-15 19:25:18 1150

原创 opencv+python智能车道检测，助力无人驾驶

车道检测可通过使用单目摄像机、立体摄像机、激光雷达等实现[4]。相机因其丰富的内容功能和低廉的价格而最受欢迎。深度学习（DL）提出了一种新的数据驱动方法，并且比大多数基于特征的方法获得了更好的性能。虽然DL系统在许多应用中取得了优异的性能，但它们经常被用作"黑匣子"，其性能没有保证。这限制了它们在安全关键任务中的应用，例如自动驾驶的车道检测。

2025-01-07 18:55:02 178

原创 Netron可视化深度学习的模型框架，大大降低了大模型的学习门槛

好在Netron把大模型的框架都使用可视化的方式呈现了出来，从输入，到输出，数据的每个步骤的流动，以及每个节点的数据维度与当前时间节点的计算名称都详细的罗列了出来，类似卷积的操作，从输入到输出，都是一条直线下来，光看代码也比较容易清晰。

2025-01-07 18:38:07 659

原创 labml.AI逐行详解深度学习模型代码与原理，transformer，GPT等等

labml.AI是一个在线平台，该平台主要来讲解深度学习模型（transformer，GPT，diffusion model，GAN，RNN，CNN，Lora，Resnet，U-Net，LSTM等等）的代码与原理解析。每行代码都有详细的解析，且当涉及到核心知识点时，会提供详细的简介。

2024-12-27 14:30:00 832

原创 MaskGCT——开源文本转语音模型，可模仿任何人说话声音

MaskGCT文本转语音模型是一个开源的模型，不仅可以生成语音，还可以模仿任何人说话的声音，且可以进行语气的转换。

2024-12-17 18:12:19 1331

原创动画详解 CNN 卷积神经网络，每层数据流向清晰易懂

学习计算机视觉模型，首要的任务就是要学懂 CNN 卷积神经网络模型，因为很多计算机视觉模型都是基于 CNN 卷积神经网络模型进行优化升级设计的。而 CNN 卷积神经网络模型也是最基础的视觉模型，其中设计到的参数，定义，数据流向等如何操作，特别是 CNN 卷积的操作如何进行，本期介绍的这个工具，可以可视化 CNN 卷积的过程，以及整个 CNN 卷积神经网络模型的搭建。

2024-12-09 18:59:39 813

原创 NotebookLM 读论文，搞科研，写摘要，谷歌发布的 AI 助理可轻松拿捏

本期介绍的是 Google 发布的NotebookLM笔记本，其NotebookLM工具借助于 Gemini 大语言模型的多模态能力，让学生，科研工作者可以很容易记录，学习。

2024-11-27 18:30:09 883

原创 Meta 发布Sapiens人类视觉模型，2D 姿势估计、人体分割、深度估计

meta提出了 Sapiens，人类基础视觉模型。这是一个以人为中心的视觉任务的模型。包括： 2D 姿势估计、人体部位分割、深度估计和表面法线预测。

2024-11-27 18:26:23 1232

原创 Meta Movie Gen 对标 Sora，文生视频一经发布便是巅峰

Movie Gen不仅可以文生视频，还可以根据一张照片与文本生成个性化的视频，当然也可以根据视频与文本描述，进行视频剪辑，且可以根据视频或者图片内容生成背景音乐，简直是自媒体创作者的完美搭档。

2024-11-03 16:15:15 823

原创使用Diffutoon把视频转换成动漫风格，无需部署，开箱即用

无论是图片动漫转换以及视频动漫转换，我们前期也介绍过相关的模型，但是其模型输出的动漫视频不是有瑕疵，就是动漫效果不唯美，今天介绍一个modelscope社区开源的动漫风格转换模型Diffutoon。

2024-10-20 15:59:36 784

原创 Python人工智能使用OpenCV进行图片形状的中心检测

我们都知道正方形（长方形）的中心是2条对角线的交点，圆的中心是一个圆的圆心，如何在对象检测以及图片检测与识别领域，判断一个形状的中心，便是计算机视觉领域中的一个基础检测

2024-09-30 10:08:15 896

原创 TTT大语言模型架构发布，成功撼动了Transformer与Mamba模型

上期图文，我们刚介绍了 transformer 模型与 Mamba 模型，觉得 Mamba 模型的发布可以有效改善 transformer 模型长序列输入复杂度的问题，应该能够成为下一个大语言模型的基石。谁想Mamba2 还没有发布几天，这边最新的大语言模型TTT模型发布，成功撼动了 transformer 与 Mamba 模型。

2024-09-30 10:05:20 858

原创 NVIDIA发布端到端自动驾驶框架Hydra-MDP

Hydra-MDP 提供了一个通用框架，展示了如何通过基于规则的规划器增强基于机器学习的规划。这种集成系统确保模型不仅模仿人类的驾驶行为，还遵守交通规则和安全标准，解决了传统模仿学习的局限性。Hydra-MDP 的数据驱动缩放定律证明了其稳健性和适应性。通过使用具有大量数据和 GPU 预训练基础模型，Hydra-MDP 展示了其可扩展性和持续改进的潜力。

2024-09-23 18:38:51 949

原创 Python代码使用OpenCV进行Blob检测

什么是Blob？blob是图像中一组共享的区域，它们具有一些共同的属性（例如灰度值,形状，尺寸等）blob检测的目的是识别并标记一些特定区域，blob检测在自动化工业领域比较常见。

2024-09-17 11:25:33 830

原创 DiPIR——把科幻带进现实，实现虚拟对象映射到真实图片与视频中

DiPIR：从单个图像推断真实世界的环境条件，从而可以将虚拟物体插入图像或视频中，使它们在场景中看起来像真实的一样。该模型旨在解决将虚拟物体插入图像或视频中的问题，使它们看起来像是真实存在于场景中

2024-09-17 11:19:36 1043

原创 Mamba 2的发布是否可以撼动Transformer模型的AI大一统的江湖地位

Mamba 是一种新的状态空间模型架构，在语言建模等信息密集数据上显示出良好的性能，而以前的二次模型在 Transformers 方面存在不足。Mamba基于结构化状态空间模型的，并使用FlashAttention进行高效的硬件设计和实现。

2024-08-28 07:00:00 976

原创 ffmpeg开发者视频剪辑器

FFmpeg是一套领先的音视频多媒体处理开源框架，采用LGPL或GPL许可证。它提供了对音视频的采集、编码、解码、转码、音视频分离、合并、流化、过滤器等丰富的功能，包含了非常先进的音频/视频编解码库libavcodec，具有非常高的可移植性和编解码质量。FFmpeg在Linux平台下开发，但它同样也可以在其它操作系统环境中编译运行，包括Windows、Mac OS X等

2024-08-17 17:16:38 1370 8

原创谷歌开源Gemma-2 百亿参数大模型，性能超越Llama-3模型，免费使用

Gemma模型是谷歌发布的一个开源模型，任何人都可以免费下载预训练模型，进行使用。而谷歌最近也发布了Gemma 2 模型，模型参数超过了 200 亿大官，果真大模型最后都是拼参数的时候吗。

2024-08-17 17:07:29 998

原创使用python轻松实现高大上的YOLOV4对象检测算法

YOLO系列对象检测算法，算是人工智能技术领域的一匹黑马，当开发者宣布不再为YOLO系列检测算法更新时，很多开发者瞬间失去了”精神食粮“。突然，当YOLOV4检测算法发布的时候，让很多开发者喜出望外。

2024-08-13 18:13:21 207

原创 AI大语言模型太卷了——Claude 3.5 Sonnet在多个任务上超越GPT-4o

GPT-4o模型的发布，让大家为之震惊。而Claude AI发布了最新的 Claude 3.5 Sonnet模型，与 OpenAI 发布的GPT-4o展开正面竞争。Claude 3.5 Sonnet 提高了整个AI行业的智能水平，在广泛的评估中优于竞争对手模型和 Claude 3 Opus，并且具有中级模型 Claude 3 Sonnet 的速度和成本。

2024-08-13 18:06:35 417

原创人工智能计算机视觉先锋——OpenCv 的颜色检测

在计算机的世界里，只有 0 或者1，如何让计算机认识颜色是计算机视觉工作者首先需要考虑的事情，我们知道整个世界的颜色虽然五彩缤纷，但是都是3种原色彩合成的（R G B），有了（R G B）三源色，便可以通过调节不同的颜色比例来达到其他颜色的效果。

2024-08-06 18:10:11 1625 2

原创字节跳动发Seed-TTS语音合成模型，可模仿任意人的声音，效果逼真

前期我们介绍过很多语音合成的模型，比如ChatTTS，微软语音合成大模型等，随着大模型的不断进步，其合成的声音基本跟真人没有多大的区别。本期介绍的是字节跳动自家发布的语音合成模型Seed-TTS。

2024-08-06 18:07:04 1664

原创计算机视觉，opencv 圆形检测

今天我们介绍一个opencv 函数cv2.HoughCircles()，此函数主要用于检测图像中的圆形，我们知道3点可以画一个圆，学习CAD的同学肯定知道，opencv使用霍夫梯度的方法进行圆的检测

2024-07-29 19:05:16 731

原创 Luma AI发布文生视频大模型Dream Machine——可免费在线试玩

Luma AI发布文生视频大模型Dream Machine模型，可以免费供大家使用，任何人只要到Luma AI的官方网站，就可体验Luma AI的文生视频魅力。

2024-07-29 19:02:32 1050

空空如也

空空如也