小殊小殊-优快云博客

原创广告这口饭，ChatGPT 终于端起来了！

ChatGPT：从“无广告清流”到“或许也要恰饭了”？没错，OpenAI 最近内部测试广告功能的消息一出，科技圈立刻炸锅。一直以来，一打开 ChatGPT，就是那种“我只为回答而生”的纯净体验，突然要变成“我回答你，但我顺便推点东西给你”？这多少让人有点不习惯。

2025-12-03 10:29:01 10204 10

原创重磅！DeepSeek发布V3.2系列模型！

DeepSeek今天（12月1日）同步推出两款正式版本AI模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale，前者主打日常应用场景，后者在多项国际竞赛中获得金牌。这标志着开源模型与闭源商业模型的性能差距进一步缩小。

2025-12-02 11:22:57 11276 7

原创 DeepSeek为什么这么慢？

DeepSeek 的出现引发了广泛关注，它以极低的训练成本与高参数规模令人惊叹。但用户在实际体验中往往会提出一个最直观的疑问：“为什么 DeepSeek 这么慢？”

2025-11-27 08:17:00 11062 13

原创【论文笔记】剪枝综述：大模型也需要减肥哟！

今天我们来看一篇关于深度神经网络剪枝的综述。所谓“剪枝”，你可以把它想象成给一个庞大笨重的 AI 模型做减肥和塑形：把那些用处不大的神经元连接剪掉，只保留真正关键、最有贡献的部分。这样做的目的，就是让模型变得更轻、更快、更省内存，同时还能保持原本的聪明程度，不会因为瘦身过头而变傻。

2025-11-27 08:16:23 8727 4

原创【论文笔记】知识蒸馏的全面综述

今天看一篇关于知识蒸馏（Knowledge Distillation, KD）的全面综述

2025-11-24 11:23:09 5909 17

原创【论文笔记】大型语言模型的知识蒸馏与数据集蒸馏

我们来看一篇关于大型语言模型的知识蒸馏与数据集蒸馏的综述

2025-11-24 11:22:50 6367 20

原创【论文笔记】视频RAG-Vgent：基于图结构的视频检索推理框架

Vgent专门用于解决解决长视频理解的难题。简单来说，就是让AI能够更好地看懂和理解几十分钟甚至几小时的视频内容。下面我用通俗易懂的方式给你讲讲它最核心的亮点。

2025-11-21 10:24:59 6417 15

原创【论文笔记】Video-RAG：开源视频理解模型也能媲美GPT-4o

Video-RAG就像给视频理解模型配了一个“智能小助手”，能自动从视频里提取关键文字信息来帮忙，让模型看得更明白、答得更准。

2025-11-21 10:15:17 6984 16

原创微博开源VibeThinker-1.5B大模型：15亿参数，挑战万亿参数AI巨头

当整个AI行业都在追逐"更大即更强"的 scaling law 时，微博AI团队带来的VibeThinker-1.5B却用实实在在的数据告诉我们：小模型，同样可以拥有大智慧。这个仅有15亿参数的"小个子"，在AIME2025数学竞赛中斩获74.4分，超越了参数量400倍于它的DeepSeek R1；在代码生成任务上，它以51.1分的成绩小幅领先Magistral Medium。更令人惊叹的是，这一切的实现成本不到8000美元。

2025-11-20 09:57:59 2657 15

原创离了大谱，顶会的审稿人有 21% 竟是 AI！

离了大谱，ICLR 2026 的审稿人有 21% 竟是 AI。

2025-11-20 09:56:36 1984 10

原创【论文笔记】真正看得懂图像的Qwen3-VL

今年九月阿里新开源了Qwen3-VL，它是最良心的国产开源多模态大模型。不仅能够精准识别图像中的物体、解析复杂文档（如表格、图表和手写文字），还能理解长达数小时的视频内容，甚至精确定位到秒级的事件片段。

2025-11-19 11:05:24 2626 9

原创【论文笔记】DeepSeek-OCR：你的知识库终于有救了！

DeepSeek-OCR由DeepSeek在2025年10月20日发布，它探索了一种全新的文本理解思路：用图像作为文本的高效压缩媒介。

2025-11-19 10:32:51 2530 14

原创【论文笔记】Transformer的时代，正在被Kimi Linear改写。

月之暗面（Moonshot AI）最新发布的开源Kimi Linear架构，用一种全新的注意力机制，在相同训练条件下首次超越了传统的全注意力模型，真正做到了“既快又聪明”。

2025-11-18 09:06:40 3036 10

原创从零手撸Mamba！

从零手撸Mamba！

2025-11-17 10:39:28 4962 15

原创最新研究：对AI越粗鲁，回答正确率越高！

最新研究：对AI语气越粗鲁回答正确率越高！

2025-11-13 09:52:21 7565 22

原创 Mamba的前世今生！

从1980年代只会短期记忆的“金鱼”RNN，到2019年HiPPO理论为长记忆打下“地基”，再到2021年S4造出精密的“记忆宫殿”，最终在2023年诞生了像人一样懂得“抓重点”的Mamba（S6），这条进化之路，就是一部AI进化史。

2025-11-10 10:05:14 10580 5

原创备受追捧的Mamba强在哪？

作为三代核心序列模型，Mamba在学术界非常火热，是发（shui）论文的热点研究方向，下面我们就一起看看Mamba是怎么个事。

2025-10-31 09:39:55 6298 7

原创性能超越Transformer的Mamba到底是什么

Mamba是一种状态空间模型，由卡内基梅隆大学和普林斯顿大学的研究者在2023年底提出。解决了传统的循环神经网络（RNN）在处理长序列数据时存在梯度消失和长期依赖等问题；同时也解决了Transformer的自注意力机制在处理长序列时，计算量和内存占用会呈平方级增长的问题。

2025-10-30 09:06:12 8500 8

原创大模型中的KVCache是什么

小伙伴们肯定发现了，现在的大模型推理速度越来越快，甚至有的文本大模型已经可以实现“腹泻式”输出。其实优化速度的手段有很多，其中一个就是KVCache 。

2025-10-24 12:40:21 5682 5

原创【论文笔记】LTX-Video极致速度的视频生成模型

LTXVideo是基于Transformer的潜在扩散模型（Latent Diffusion Model），通过整合视频变分自编码器（Video-VAE）和去噪Transformer的功能，实现了高效且高质量的视频生成。 LTXVideo是现在开源模型中速度数一数二的（可能是最快的），它的高速来自于高压缩比，那LTXVideo除了高压缩比还有什么创新呢？LTXVideo的论文说了什么呢？下面我来简单解读一下。

2025-10-23 10:18:42 8133 6

原创大模型的FP32、FP16、INT8等格式都是干什么用的？

小伙伴们在开源大模型社区浏览下载页面时，常能看到模型文件名后跟着"FP16""INT8"或"INT4"的后缀——比如"Llama3-8B-FP16"，或是标注为"INT4量化版"。这些看似神秘的字母组合，其实是模型参数的存储格式，直接影响着模型的内存占用、计算效率与性能表现。

2025-10-20 10:07:50 3126 4

原创图卷积网络GCN：图像理解的新视角

传统CNN处理图像就像通过“小窗口”看图，只能捕捉局部特征。而图卷积网络（GCN）为我们提供了一种更灵活的视角——它将图像视为一张由像素点连接成的“关系网”。通过这种方式，GCN允许信息在任意关联的像素间直接传递，哪怕它们相隔很远。这使它能够捕捉图像中复杂的全局信息，为图像理解打开了新的大门。

2025-10-14 10:59:16 6312 14

原创超越CNN：GCN如何重塑图像处理

GCN 用于图像处理时，并没有 CNN 中 “固定形状、滑动遍历” 的卷积核，但存在承担 “特征变换” 功能的权重矩阵，其作用与 CNN 卷积核的 “参数化特征提取” 本质相通，只是适配图结构的操作形式不同。下面我将用GCN完成一个简单的图像分类任务。

2025-10-13 10:48:16 6191 7

原创一图看懂图卷积网络GCN

我们熟悉的卷积常用来处理图片，靠滑动窗口提取局部像素特征；而图卷积网络（GCN），是把这种“找局部关联”的思路，用到了更灵活的“图”数据上。

2025-10-09 10:22:16 1193 4

原创速度、精度、轻量化——YOLO26震撼发布！

YOLO26：更好、更快、更小的 YOLO 型号！

2025-09-29 13:28:47 1682 4

原创计算机骗了你！数字根本不是“算出来”的！

本文介绍了浮点数的存储原理，重点解释了指数位和尾数位的作用。浮点数采用类似科学计数法的表示方法，通过指数位确定数值范围（数量级），尾数位决定精度。FP32格式包含1位符号位、8位指数位（采用偏移码避免比较错误）和23位尾数位（隐含前导1）。文章以12.34为例详细演示了浮点数的二进制转换过程，说明浮点数通过动态精度实现相对误差恒定，适合科学计算需求。不同浮点格式（如FP16/FP64）原理相同，主要区别在于位数分配。

2025-09-26 09:57:35 889 4

原创绝对判断已过时？下一代GAN：鉴别器不再问“真不真”，而是问“谁更真”？

本文介绍了相对主义生成对抗网络(rGAN)的核心原理及其改进版本RaGAN。相比传统GAN的绝对判断方式，rGAN通过让鉴别器进行相对比较（真实样本与生成样本之间的对比），解决了训练中的梯度消失问题。RaGAN的损失函数设计使生成器和鉴别器始终获得明确的梯度信号，显著提升了训练稳定性和生成质量。文章详细解析了RaGAN的鉴别器和生成器损失函数计算逻辑，并通过对比表格展示了rGAN在模式崩溃、生成多样性等方面的优势。这种相对比较机制为GAN训练提供了更稳定、更有效的优化路径。

2025-09-22 10:16:35 1046 3

原创震惊！GAN（生成对抗网络）爆出惊天缺陷！

GAN训练常见问题剖析：生成质量低、模式崩溃和超参数敏感等问题源于GAN原生缺陷——生成器无法影响判别器对真实样本的判断。普通GAN中，判别器对真样本的判别完全独立于生成器，而生成器仅优化假样本的生成质量，缺乏对判别器真样本判断逻辑的反馈。这种机制导致生成器训练易陷入局部最优，难以提升生成多样性和质量。改进方向需突破传统GAN的"绝对判断"局限，让生成器获得更全面的判别反馈。

2025-09-08 10:43:51 882 1

原创 GAN（生成对抗网络）的底层思维竟来自博弈论？

GAN（生成对抗网络）基于博弈论的纳什均衡概念，由生成器（G）和判别器（D）构成动态对抗系统。生成器通过噪声生成假数据以欺骗判别器，判别器则试图区分真假数据。其目标函数为极小极大博弈：G最小化V(D,G)，D最大化V(D,G)。当达到纳什均衡时，判别器无法区分真假数据（D(x)=0.5），生成数据分布与真实数据分布一致。GAN的对抗训练推动双方能力提升，最终实现生成高质量数据的目标。纳什均衡强调策略稳定性，而帕累托最优关注全局效率，两者在理想机制中可趋于一致。

2025-09-02 09:59:23 1191 4

原创【大模型】3D因果卷积动图怎么画

这篇文章主要记录这篇文章中画图用到的代码

2025-08-04 09:53:46 497 1

原创【大模型】一图看懂3D因果卷积！

本文将系统性地介绍从1D到3D的因果卷积原理，通过直观的动图演示帮助读者理解其工作机制，并重点探讨3D因果卷积在大规模视频生成中的独特价值和应用前景。

2025-08-04 09:53:26 1740 5

原创火遍全网的Qwen3-Coder测评！结果意想不到！

本文对阿里最新开源的Qwen3-Coder大模型进行了实际测评。测试内容包括贪吃蛇游戏实现、3D绘图能力及WebSocket对话系统开发。结果炸裂！

2025-07-25 09:17:08 1310 4

原创为什么即梦那么快？可灵那么慢！

本文分析了影响视频生成模型推理速度的关键因素：压缩比。通过对比LTXVideo（1.9B参数）和Wan2.1（1.3B参数）两个模型发现：1）压缩比差异（192:48）导致Transformer模块推理速度相差4-27倍，这是37秒与260秒耗时差距的主因；2）VAE的时空下采样程度（32x32 vs 8x8）决定压缩比；3）Classifier-Free Guidance参数设置会影响Transformer计算量（CFG≤1时耗时减半）。研究证明在模型规模相近时，提高VAE压缩比是加速视频生成最有效的方法

2025-06-09 10:06:48 2712 5

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

ChatGLM分词词典

person_pose_json.zip

Mina小Demo聊天工具

android摇一摇随机变图片

高等数学 下册

bazel-0.80-dist

机器学习实战：基于Scikit-Learn和TensorFlow

程序员的数学 三册全

机器学习：实用案例解析（中文版，带完整书签）

高等数学 上册

jquery1.7.2.chm 中文API

jar文件查看器

How Tomcat Works中文版

空空如也

高等数学下册

程序员的数学三册全

高等数学上册