迷途小书童的Note-优快云博客

转载 GPU/CUDA 发展编年史：全系列 GPU 硬件架构和 CUDA 软件模型技术原理

也是为了支持这么复杂的计算流程，所以为 SM 引入了 L1、L2 Cache 使得整个数据的生命周期都在 SM 内执行，降低了对外部显存的访问压力。本文旨在梳理全系列 GPU 芯片架构的发展历史、技术特性和 CUDA 技术实现原理，包括：费米（Feimi）、开普勒（Kepler）、麦克斯韦（Maxwell）、帕斯卡（Pashcal）、伏特（Volt）、图灵（Turing）、安培（Ampere）和赫柏（Hopper）和布莱克韦尔（Blackwell）架构。通过简单的编程即可拿到 GPU 的基本性能。

2025-12-24 00:27:29 1

转载再也不担心论文！Nano-Banana Pro 论文绘图最全教程发布

在实战中，如果你有一张目标风格的图片（甚至是你的手绘草稿），请直接上传给模型，并删除步骤二提示词中的通用 Art Style 描述，改为明确指令：“生成的 Figure 风格、布局特征和配色方案应严格参考我上传的图片”。仅仅告诉 AI 使用 "Light Blue" 或 "Red" 是远远不够的，这往往会导致生成图带有廉价的“塑料感”。的问题，最好的办法是用修图软件抹掉这些文字，然后换成符合论文格式（如 Times New Roman）的矢量文字。因此更多情况下，对于大幅度的调整可以去优化步骤一的提示词；

2025-12-21 23:15:21 27

原创一个让你像聊天一样做PPT的AI工具

它不像市面上那些只能套模板、改改文字的“假AI”，而是真能理解你的想法，并按你的想法来生成、修改每一页PPT。框选它，然后说“换成柱状图”或者“文字放大一点”，AI 就会重新生成那一块，而且风格还跟整份 PPT 保持一致。AI 会立刻响应，不用点来点去。，意思是：你可以免费用于学习、教学、个人项目、非营利研究。：你只要说“帮我做个关于预制菜生产线的 PPT”，它就能自动生成大纲、内容、配图，甚至排版都给你安排好。格式，默认就是 16:9 的标准比例，排版完美，不用再手动调整，拿去开会、上课、汇报都行。

2025-12-16 12:01:26 307

转载一文了解：大模型「推理基准测试」及其「核心评估指标」

需要注意的是，TPS 的计算是批量（batch）完成的，不是实时（live）动态变化的指标。（Sampling Parameters）：不同的采样策略，比如：Greedy（每次选得分最高的 Token）、Top-p（按累积概率筛选）、Top-k（按最高 k 个概率选）、Temperature（调整随机性）都会影响生成速度。这意味着，最终统计的结果是基于一部分已经完成的代表性请求子集得出的，也就是说，在计算时，会排除掉刚开始预热（warming up）和最后收尾阶段（cooling down）的请求。

2025-12-15 23:22:27 38

原创上下文工程：会话与记忆

每次你跟AI交谈，就开启一个session，记录你的每一句话、AI的每一句回应(这些是事件、history)，以及AI在对话过程中可能维护的临时状态(state、memory buffer)。记忆一般存储在专门的系统中(向量数据库、知识图谱、key-value存储、memory bank等)，并带有元数据(来源、时间、置信度、类型)，方便后续检索与信任判断。：不仅是文字，也可能是图像、文件、声音、其他形式 -- 让AI记住更丰富的信息(例如你给它的一张图、一个文档、一次语音说明)。

2025-12-10 22:23:06 326

原创 CUDA 13.1：为下一代GPU编程打造

传统GPU编程 (SIMT model) 中，如果你想利用 GPU 做并行计算 —— 比如矩阵乘法、张量运算、图像处理 —— 你需要把任务拆成很多线程(thread)，然后定义每个线程负责处理哪些数据，以及线程之间如何协作。你不再需要直接操作线程与线程之间的调度，而是把数据分成tile —— 然后告诉 GPU：“对这个 tile 做哪些操作 (数学 / 张量 /矩阵运算) 就行”。—— 开发者可以更细粒度地分配 GPU 资源，适合同时运行多个任务、或需要对延迟／优先级控制的场景。

2025-12-08 22:27:02 314

转载双雄对决：Google Nano Banana Pro vs 阿里通义 Z-Image-Turbo 使用教程和深度评测

Z-Image-Turbo则是开源界的宠儿。虽然它在多图融合上支持保持风格一致性，且能生成自然的光影效果，但在高级摄影参数控制和复杂编辑流上，目前略逊于Google的成熟方案。（1）懒得部署，可以这里用z-image-turbo，免费送1$，可以生成200张：https://wavespeed.ai/models/wavespeed-ai/z-image/turbo。企业用户、个人用户，深度依赖Google Workspace，需要实时信息集成（如新闻、天气），或者需要极致的多图融合与自然语言编辑功能。

2025-12-04 22:57:34 570

转载 DeepSeek刚刚发布了DeepSeek-OCR

这种对表、公式、几何的解析能力，已经彻底超越了传统的“识别”范畴，它真正踏入了“理解”的层次。在当前高质量数据日益稀缺的背景下，一个能“自产”数据的能力，其价值是无法估量的。随着模型和数据量的不断膨胀，对效率和成本的追求，只会让“光学压缩”这种高效的“数据打包”技术，变得越来越不可或缺。这部分的作用，就是对压缩后的“精炼信息”进行全局性的理解和推理，捕捉文档的整体结构和逻辑。首次用定量的分析和工程实践，证明了“上下文光学压缩”的可行性与高效性，为 LLM 的长上下文难题找到了一个结构性的解决方案。

2025-10-20 23:41:55 248

转载 Qwen3-Next-80B-A3B 深度技术解读

Gated DeltaNet 相比常用的滑动窗口注意力（Sliding Window Attention）和 Mamba2 有更强的上下文学习（in-context learning）能力，并在 3:1 的混合比例（即 75% 层使用 Gated DeltaNet，25% 层保留标准注意力）下能一致超过超越单一架构，实现性能与效率的双重优化。对于需要处理超长文档（几十万 token 级别）的产品或研究，Qwen3-Next 提供了非常有吸引力的选择，为模型后续的提升迭代提供了新的思路和方向。

2025-09-15 23:46:09 781

转载 Transformer中的多头注意力详解

5. 头之间的正交性，对于多个头在训练过程中，如果他们的梯度不同，更新方向不同，且训练有效，那么头的参数矩阵会逐渐展现出正交性。4. 损失函数的隐式正则化，假设我们有2个或者2个以上的头的梯度方向高度一致，那么参数的更新也就趋向一致，那么这就存在。这里X5和X1都指的是车，它除了实体的识别外，还需要对”车“这个词的长程依赖。:学习到长程的关系，比如”他最喜欢的车是保时捷，但准备买的是X5，最终妥协买了X1“的指数运算而放大特定部分，而其他位置会被抑制，所以每个头的梯度方向自然也就不同了。

2025-05-26 21:17:03 273

转载【一文了解】Llama.cpp

它是一个高度模块化和可扩展的库，适合自然语言处理任务，涵盖从基础到高级的多种功能，满足不同场景需求，为我们搭建大模型应用提供了更为便利的工具。尽管它不支持训练，但在推理方面，它具备丰富的功能，支持模型加载、聊天、流式输出、上下文管理、量化、API 接口等，它是使用Meta系列模型一款不可缺少的工具。通过 `llama-server` 或社区项目，例如 `llama-cpp-python`，可以把 `llama.cpp` 部署为本地 API 服务。它是面向用户的 API 层，封装了对 ggml 的调用。

2025-05-22 21:43:10 1051

转载注意力机制进化之路：MHA、MQA、GQA

本文将深入浅出地介绍几种主流的注意力机制，包括多头注意力 (MHA)、多查询注意力 (MQA)、分组查询注意力 (GQA)，以及最新的 DeepSeek FlashMLA，帮助您理解它们的工作原理、优缺点以及应用场景。相比 MQA，GQA 通过分组，让模型拥有了更丰富的“知识库”，性能更接近 MHA，通常能达到 MHA 性能的 98%-99%。您可以将其理解为，模型将输入信息分解成多个方面，然后分别计算每个方面的重要性，最终综合所有方面的信息。参数量降低，模型运行时所需的内存也随之减少，降低了硬件门槛。

2025-05-14 00:41:18 250

转载从 Llama 1 到 Llama 4：Llama家族全解

此外，Llama 3 在模型架构上的优化，如上下文长度的扩展和训练数据量的增加，也为推理速度的提升提供了支持。在 Llama 4 中，MoE 架构使得模型能够根据输入数据的特征动态选择合适的专家进行计算，这不仅提高了模型的计算效率，还增强了模型对不同任务的适应能力。与 Llama 2 使用的 Sentence Piece 分词器相比，TikToken 的词汇表容量从 32k 提升到了 128k，这意味着模型能够识别和处理更多的单词和短语，从而更好地捕捉语言的细微差别和复杂性。

2025-05-06 22:40:24 222

转载 Qwen-3模型特点图文详解

在实际测试中，Qwen-3能够理解用户提出的编程需求，提供语法正确、逻辑清晰的代码片段，甚至包括注释和优化建议。值得注意的是，即便参数规模远小于闭源的GPT-4（推测OpenAI-o1为GPT-4的一个公开指标版本），Qwen-3依然展现出媲美甚至超越的实力。，根据官方报告，Qwen-3各尺寸模型相对于Qwen-2.5呈现出“小模型赶超大模型”的趋势：如 Qwen-3-1.7B≈Qwen-2.5-3B，Qwen-3-8B≈Qwen-2.5-14B，Qwen-3-32B≈Qwen-2.5-72B。

2025-04-29 22:38:28 871

转载深度学习中几个关键术语的关系、异同辨析

几个 tuning 相关术语的关系、异同辨析：（一）现在流行的 LLM（Large Language Model，大模型）范式是：Pre-train —— Prompt —— Predict，市面上也有大量的文章在讲 Prompt 怎么写，怎么 engineering，那么里面具体是怎么个内涵呢？????（二）pre-train、fine-tuning、prompt-tuning、prompt、in...

2024-09-26 21:53:49 281

原创 UNet图像分割

什么是 UNet？UNet 是一种用于图像分割任务的卷积神经网络（CNN）架构。该模型由Olaf Ronneberger等人于 2015 年提出，因其结构的对称性，形似字母“U”而得名，UNet 能够高效地处理各类图像分割任务。简单来说，图像分割就是将一张图像中的不同部分进行标记，这对医学诊断、自动驾驶等领域至关重要，而 UNet 的出现大大提高了这些任务的精度和效率。UNet 的架构：编码...

2024-09-25 20:16:15 1349

原创颠覆视频创作！一键替换3D角色，你还不来试试？

随着AI技术的飞速发展，视频创作创作方式正发生着翻天覆地的变化。今天要介绍的是阿里巴巴推出的黑科技工具——MotionShop，它能够一键将视频中的真人替换为3D虚拟角色，为创作者提供了前所未有的自由与可能性。MotionShop是一款由阿里巴巴达摩院开发的AI视频生成工具。它的亮点在于能够通过AI技术，将视频中的人物角色替换成逼真的3D虚拟形象，而且这个过程非常简单，只需几步即可完成。对于视频创...

2024-09-22 07:03:36 1362

原创 AI证件照，一键搞定！

每到秋季，总是少不了各类考试和报名的繁琐手续，几乎每一个环节都需要你上传一张标准的证件照。今天，我们要介绍一个强大的AI工具——HivisionIDPhotos。这个开源的工具不仅能自动生成各类标准尺寸的证件照，还支持背景颜色自定义，如蓝色、白色、红色，甚至渐变背景。不论你是需要一寸、两寸的证件照，还是多个不同版本的打印格式，这个工具都能帮你一键搞定，而且完全免费，CPU即可推理运行。img如何使...

2024-09-20 11:28:45 136804

原创 26.2k，收下这个FastAPI全栈模板！

由 FastAPI 的创始人亲自维护，集成了业界主流技术栈，开箱即用，为你省去大量环境搭建时间，这个全栈模板基于 FastAPI、SQLModel、PostgreSQL、Docker 和 React 等技术构建而成，它就是 full-stack-fastapi-tem)plate 项目，无论你是初学者还是经验丰富的开发者，都能从中获益。FastAPI 是一个现代、高性能的 Web 框架，提供了类型...

2024-09-20 09:24:45 1481 1

原创 Dash稳定版更新

大家好，今天要和大家聊聊一个开发Python网页应用的超级神器——Dash 2.18.1稳定版本正式发布啦！此次更新，针对2.18.0版本的问题进行了修复和优化，为我们带来了更为稳定、强大的开发体验。Dash是什么？Dash是一款基于Python的开源框架，用于构建现代化网页应用。与其他前端框架不同的是，Dash让Python开发者无需编写复杂的前端代码，就能创建出专业级的、交互性极强的网页应用。...

2024-09-19 15:48:21 816

原创不懂编程也没关系，Cursor AI帮你轻松写代码！

近年来，编程圈子里涌现了不少新的工具和技术，但Cursor AI绝对是其中的佼佼者。朋友们频频提起，说它大大提升了编程效率，有些人甚至笑称已经离不开它了。今天，我就带大家深入了解这款编程神器，帮助你快速上手，提升生产力。什么是Cursor AI？简单来说，Cursor AI是一款专为程序员设计的智能代码编辑器。它利用AI技术，通过自动补全、智能建议、代码生成等功能，帮助开发者轻松应对复杂的编程任务...

2024-09-19 10:50:57 18912 2

原创超级Prompt!

最近，一个名为SuperPrompt的GitHub项目在AI圈引起了轰动。这个项目仅仅只有5个Markdown文件，却一下子收获了4000多个星星。那么，这个神奇的提示词究竟有什么魔力，能让AI模型拥有科学思维呢？据了解，这个SuperPrompt来自Twitter(X)上的一位自称提示词之神的用户@BLUECOW009。他表示，这个prompt是他用了几个月时间设计出来的，目的是帮助研究复杂的科...

2024-09-18 13:44:11 1385

原创 Star马上破万，这款开源AI知识库你一定要看看

还记得《钢铁侠》电影中，托尼•斯塔克的智能助手贾维斯吗？他能回答各种问题，协助处理复杂任务，简直是每个人都梦寐以求的得力助手。如今，这个梦想正在成为现实。一款名为MaxKB的开源AI知识库问答系统，正在让普通人也能拥有自己的"贾维斯"。MaxKB的主要特点截止到今天，MaxKB在GitHub上已经收获了超过9900个Star。MaxKB声称只需5分钟，就能帮你搭建起这样一个系统。无论你是技术小白还...

2024-09-15 07:04:10 1593

原创 PyAutoGUI实战(八)与其他常用库的整合

第8篇: 与其他库的整合在这一篇中，我们将探讨如何将 PyAutoGUI 与其他 Python 库结合使用，以增强自动化脚本的功能。这种集成可以使脚本具备更多功能，适应更多的自动化场景。8.1 与 OpenCV 结合进行高级图像处理OpenCV 是一个强大的计算机视觉库，可以用于图像处理、目标检测等任务。将 OpenCV 与 PyAutoGUI 结合，可以提高图像匹配的准确性，尤其是在复杂背景或图...

2024-09-14 15:29:39 392

原创 U2-Net：图像分割中的背景移除技术

在数字图像处理的世界里，背景移除技术一直是热门话题。无论是在电影制作、广告设计还是医疗影像分析中，这项技术都扮演着至关重要的角色。今天，我们要一起探索一种革命性的技术 -- U2-Net，它在图像分割领域中以其高效和精确的背景移除能力著称。U2-Net简介U2-Net，这个听起来有些未来感的名字，其实是一个基于深度学习的语义分割模型。它的核心优势在于能够将图像中的前景与背景分离，而且操作简便、效果...

2024-09-14 11:14:15 1083

原创推理能力超博士，OpenAI发布最强模型o1

昨天凌晨，OpenAI又给我们带来了一个激动人心的消息，他们发布了一款全新的AI模型o1，该模型在性能上远超以往的GPT系列。告别GPT，开启新纪元OpenAI选择将新模型命名为"o1"，而不是继续使用GPT系列的名称。"o1"代表了一个全新的起点和范式。它不再局限于语言生成，而是在推理能力方面取得了重大突破。简单来说，如果说GPT系列像是一个能说会道的学生，那么o1就更像是一个深思熟虑的哲学家。...

2024-09-14 07:00:25 545

原创《黑神话•悟空》太吸金了！

根据市场研究机构VG Insights的最新数据，截至9月12日晚，《黑神话:悟空》在Steam平台上的销量已经突破1900万套！更令人瞠目结舌的是,游戏的总收入已经超过9.12亿美元，折合人民币约64亿元！让我们来感受一下这个数字的分量。它超过了许多3A级大作的首周销售额，甚至超过了一些好莱坞大片的全球票房。要知道，这还仅仅是在Steam一个平台上的成绩！为什么如此成功?《黑神话:悟空》的成功并...

2024-09-13 16:40:46 293

原创 PyTorch宣布去CUDA，Triton时代来临?

在人工智能快速发展的今天，芯片技术的革新常常能引发整个行业的地震。就在9月4日，AI领域又传来一个重磅消息：PyTorch官方宣布实现了100%基于OpenAI的Triton语言推理的大语言模型。这一消息犹如一颗重磅炸弹，在AI圈内掀起了巨大波澜。那么，这到底意味着什么？是否预示着AI芯片领域即将迎来一场革命？Triton是什么？首先，我们需要了解什么是Triton。简单来说，Triton是一种由...

2024-09-13 07:00:24 1182

原创 PyAutoGUI实战(七)键盘与鼠标事件的录制与回放

第7篇: 键盘与鼠标事件的录制与回放在这一篇中，我们将探讨如何使用 PyAutoGUI 实现键盘和鼠标事件的录制与回放。这些功能可以帮助你自动捕捉手动操作，并将其转换为可复用的脚本，非常适合重复性任务的自动化。...

2024-09-12 13:30:55 566

原创打破视频分析瓶颈，让行为追踪更简单！

随着社交媒体、监控视频和各种流媒体平台的发展，视频内容正在以惊人的速度增长。每个人几乎每天都会接触大量视频，而如何从这些海量视频中提取有用的信息，尤其是精准分析视频中的人类行为，成了科技界的一个难题。过去，分析人类行为的技术常常依赖复杂的模板和单张图片进行逐帧分析，既麻烦又不太可靠。那么，有没有一种更简单、更智能的解决方案呢？德国图宾根大学的研究团队给出了答案——InterTrack。传统方法的局...

2024-09-12 10:10:56 740

原创 PyAutoGUI实战(六)窗口与应用控制

第6篇: 控制窗口与应用程序在这一篇中，我们将讨论如何控制窗口和应用程序。这包括操作窗口大小和位置、最小化和最大化窗口、关闭窗口，以及如何在多个窗口之间切换。这些功能对桌面自动化任务非常关键，尤其是在自动化管理多个应用程序时。...

2024-09-09 11:16:52 684

原创 PyAutoGUI实战(五)消息弹窗与提醒

第5篇: 消息弹窗与提醒在这一篇中，我们将讨论如何使用 PyAutoGUI 来处理消息弹窗与提醒。这些功能对于自动化流程中的用户交互非常有用，尤其是在需要用户确认或输入信息的情况下。...

2024-09-06 10:25:16 467

原创手把手AI实战(八)一站式制作长视频

一、成果展示二、步骤拆解现在大部分的AI文生视频平台都只提供5秒、10秒等时长，如果要创作一个几分钟的视频，就需要进行多次的分割，然后再进行拼接。考虑到大部分AI平台对角色一致性问题都处理的不够理想，制作成本还是非常高的。今天要介绍的是白日梦AI，它是一款国产AI工具，整合了文生图、图生视频、剪辑配音等AI视频制作步骤，形成了自己的一套工作流，支持手机版和网页版，支持长达3000字的故事文案，可以...

2024-09-05 15:48:04 1214

原创 PyAutoGUI实战(四)屏幕截图与图像定位

第4篇: 屏幕截图与图像定位在这一篇中，我们将介绍如何使用 PyAutoGUI 进行屏幕截图以及如何在屏幕上查找特定图像。这些功能在自动化测试和图形界面操作中非常有用，可以帮助你检测特定元素是否出现在屏幕上并进行相应的操作。...

2024-09-04 07:00:17 539

原创 PyAutoGUI实战(三)键盘控制

第3篇: 键盘控制在本篇中，我们将探讨如何使用 PyAutoGUI 来控制键盘输入。这包括模拟键盘输入、组合键操作、键盘快捷键的使用以及自动输入文本的功能。3.1 键盘输入模拟PyAutoGUI 可以轻松地模拟键盘输入。在自动化操作中，模拟键盘输入是非常常见的，比如自动输入用户名、密码或自动填写表单。使用 write() 方法，可以模拟键盘输入文本...

2024-09-02 09:39:12 679

原创 MIT的10门免费线上课，YYDS！

大家好，我是小书童！今天给大家推荐10门 MIT 线上课程，无需付费，千万不要错过，抓紧学习起来。1、计算机科学和Python编程简介通过这个课程，将会学习到计算的概念Python编程语言一些简单的算法测试和调试算法复杂性的非正式介绍数据结构课程链接: https://www.edx.org/learn/computer-science/massachusetts-institute-of-tec...

2024-08-31 07:02:08 2146

原创 PyAutoGUI实战(二)鼠标控制

第2篇: 鼠标控制在这一篇中，我们将深入探讨如何使用 PyAutoGUI 来控制鼠标。这包括获取屏幕尺寸、获取和设置鼠标位置、模拟鼠标点击和拖拽操作等。2.1 坐标系PyAutoGUI 的坐标系基于屏幕分辨率，左上角 (0, 0) 是原点。X 轴: 从左到右，X 坐标值增大。即从屏幕的左边到右边，X 坐标值从 0 增加到屏幕宽度Y 轴: 从上到下，Y 坐标值增大。即从屏幕的上边到下边，Y 坐标值从...

2024-08-30 07:00:36 932

转载 Google免费AI课

大家好，我是小书童。谷歌刚刚发布了免费的人工智能课程，无需任何先决条件和费用。以下是为您整理的课程简介和学习链接，一共9门免费课，一定不能错过。1、生成式人工智能简介通过简单、短期的课程了解生成式人工智能，了解如何使用 Google Tools 制作您自己的 AI 应用。只需45分钟即可完成这一切！课程链接: https://www.cloudskillsboost.google/course_t...

2024-08-29 12:36:41 523

原创 PyAutoGUI实战(一)简介与安装

第1篇: PyAutoGUI简介与安装1.1 什么是PyAutoGUI？PyAutoGUI 是一个跨平台的开源 Python 库，用于控制鼠标和键盘，自动化桌面上的各种操作。你可以用它来模拟用户在计算机上的操作，如移动鼠标、点击按钮、输入文本、截图等。这个库非常适合用来自动化重复性的任务，比如自动化测试、批量文件处理、数据录入、游戏辅助等。...

2024-08-28 22:56:44 291

原创 PyAutoGUI实战专栏

什么是PyAutoGUI？在这个信息爆炸的时代，效率成为了每个开发者追求的核心目标。而 Python 作为一种高效且灵活的编程语言，已经被广泛应用于各个领域。而在 Python 众多的库中，PyAutoGUI 无疑是提升工作效率的得力助手。它是一款功能强大的自动化工具库，专为那些希望通过自动化来减少重复性工作、提高生产力的人设计。无论是鼠标控制，键盘模拟还是图像识别，PyAutoGUI 都能帮你轻...

2024-08-27 11:49:29 394