- 博客(137)
- 资源 (12)
- 收藏
- 关注
原创 广告这口饭,ChatGPT 终于端起来了!
ChatGPT:从“无广告清流”到“或许也要恰饭了”?没错,OpenAI 最近内部测试广告功能的消息一出,科技圈立刻炸锅。一直以来,一打开 ChatGPT,就是那种“我只为回答而生”的纯净体验,突然要变成“我回答你,但我顺便推点东西给你”?这多少让人有点不习惯。
2025-12-03 10:29:01
10204
10
原创 重磅!DeepSeek发布V3.2系列模型!
DeepSeek今天(12月1日)同步推出两款正式版本AI模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,前者主打日常应用场景,后者在多项国际竞赛中获得金牌。这标志着开源模型与闭源商业模型的性能差距进一步缩小。
2025-12-02 11:22:57
11276
7
原创 DeepSeek为什么这么慢?
DeepSeek 的出现引发了广泛关注,它以极低的训练成本与高参数规模令人惊叹。但用户在实际体验中往往会提出一个最直观的疑问:“为什么 DeepSeek 这么慢?”
2025-11-27 08:17:00
11062
13
原创 【论文笔记】剪枝综述:大模型也需要减肥哟!
今天我们来看一篇关于深度神经网络剪枝的综述。所谓“剪枝”,你可以把它想象成给一个庞大笨重的 AI 模型做减肥和塑形:把那些用处不大的神经元连接剪掉,只保留真正关键、最有贡献的部分。这样做的目的,就是让模型变得更轻、更快、更省内存,同时还能保持原本的聪明程度,不会因为瘦身过头而变傻。
2025-11-27 08:16:23
8727
4
原创 【论文笔记】视频RAG-Vgent:基于图结构的视频检索推理框架
Vgent专门用于解决解决长视频理解的难题。简单来说,就是让AI能够更好地看懂和理解几十分钟甚至几小时的视频内容。下面我用通俗易懂的方式给你讲讲它最核心的亮点。
2025-11-21 10:24:59
6417
15
原创 【论文笔记】Video-RAG:开源视频理解模型也能媲美GPT-4o
Video-RAG就像给视频理解模型配了一个“智能小助手”,能自动从视频里提取关键文字信息来帮忙,让模型看得更明白、答得更准。
2025-11-21 10:15:17
6984
16
原创 微博开源VibeThinker-1.5B大模型:15亿参数,挑战万亿参数AI巨头
当整个AI行业都在追逐"更大即更强"的 scaling law 时,微博AI团队带来的VibeThinker-1.5B却用实实在在的数据告诉我们:小模型,同样可以拥有大智慧。这个仅有15亿参数的"小个子",在AIME2025数学竞赛中斩获74.4分,超越了参数量400倍于它的DeepSeek R1;在代码生成任务上,它以51.1分的成绩小幅领先Magistral Medium。更令人惊叹的是,这一切的实现成本不到8000美元。
2025-11-20 09:57:59
2657
15
原创 【论文笔记】真正看得懂图像的Qwen3-VL
今年九月阿里新开源了Qwen3-VL,它是最良心的国产开源多模态大模型。不仅能够精准识别图像中的物体、解析复杂文档(如表格、图表和手写文字),还能理解长达数小时的视频内容,甚至精确定位到秒级的事件片段。
2025-11-19 11:05:24
2626
9
原创 【论文笔记】DeepSeek-OCR:你的知识库终于有救了!
DeepSeek-OCR由DeepSeek在2025年10月20日发布,它探索了一种全新的文本理解思路:用图像作为文本的高效压缩媒介。
2025-11-19 10:32:51
2530
14
原创 【论文笔记】Transformer的时代,正在被Kimi Linear改写。
月之暗面(Moonshot AI)最新发布的开源Kimi Linear架构,用一种全新的注意力机制,在相同训练条件下首次超越了传统的全注意力模型,真正做到了“既快又聪明”。
2025-11-18 09:06:40
3036
10
原创 Mamba的前世今生!
从1980年代只会短期记忆的“金鱼”RNN,到2019年HiPPO理论为长记忆打下“地基”,再到2021年S4造出精密的“记忆宫殿”,最终在2023年诞生了像人一样懂得“抓重点”的Mamba(S6),这条进化之路,就是一部AI进化史。
2025-11-10 10:05:14
10580
5
原创 备受追捧的Mamba强在哪?
作为三代核心序列模型,Mamba在学术界非常火热,是发(shui)论文的热点研究方向,下面我们就一起看看Mamba是怎么个事。
2025-10-31 09:39:55
6298
7
原创 性能超越Transformer的Mamba到底是什么
Mamba是一种状态空间模型,由卡内基梅隆大学和普林斯顿大学的研究者在2023年底提出。解决了传统的循环神经网络(RNN)在处理长序列数据时存在梯度消失和长期依赖等问题;同时也解决了Transformer的自注意力机制在处理长序列时,计算量和内存占用会呈平方级增长的问题。
2025-10-30 09:06:12
8500
8
原创 大模型中的KVCache是什么
小伙伴们肯定发现了,现在的大模型推理速度越来越快,甚至有的文本大模型已经可以实现“腹泻式”输出。其实优化速度的手段有很多,其中一个就是KVCache 。
2025-10-24 12:40:21
5682
5
原创 【论文笔记】LTX-Video极致速度的视频生成模型
LTXVideo是基于Transformer的潜在扩散模型(Latent Diffusion Model),通过整合视频变分自编码器(Video-VAE)和去噪Transformer的功能,实现了高效且高质量的视频生成。 LTXVideo是现在开源模型中速度数一数二的(可能是最快的),它的高速来自于高压缩比,那LTXVideo除了高压缩比还有什么创新呢?LTXVideo的论文说了什么呢?下面我来简单解读一下。
2025-10-23 10:18:42
8133
6
原创 大模型的FP32、FP16、INT8等格式都是干什么用的?
小伙伴们在开源大模型社区浏览下载页面时,常能看到模型文件名后跟着"FP16""INT8"或"INT4"的后缀——比如"Llama3-8B-FP16",或是标注为"INT4量化版"。这些看似神秘的字母组合,其实是模型参数的存储格式,直接影响着模型的内存占用、计算效率与性能表现。
2025-10-20 10:07:50
3126
4
原创 图卷积网络GCN:图像理解的新视角
传统CNN处理图像就像通过“小窗口”看图,只能捕捉局部特征。而图卷积网络(GCN)为我们提供了一种更灵活的视角——它将图像视为一张由像素点连接成的“关系网”。通过这种方式,GCN允许信息在任意关联的像素间直接传递,哪怕它们相隔很远。这使它能够捕捉图像中复杂的全局信息,为图像理解打开了新的大门。
2025-10-14 10:59:16
6312
14
原创 超越CNN:GCN如何重塑图像处理
GCN 用于图像处理时,并没有 CNN 中 “固定形状、滑动遍历” 的卷积核,但存在承担 “特征变换” 功能的权重矩阵,其作用与 CNN 卷积核的 “参数化特征提取” 本质相通,只是适配图结构的操作形式不同。下面我将用GCN完成一个简单的图像分类任务。
2025-10-13 10:48:16
6191
7
原创 一图看懂图卷积网络GCN
我们熟悉的卷积常用来处理图片,靠滑动窗口提取局部像素特征;而图卷积网络(GCN),是把这种“找局部关联”的思路,用到了更灵活的“图”数据上。
2025-10-09 10:22:16
1193
4
原创 计算机骗了你!数字根本不是“算出来”的!
本文介绍了浮点数的存储原理,重点解释了指数位和尾数位的作用。浮点数采用类似科学计数法的表示方法,通过指数位确定数值范围(数量级),尾数位决定精度。FP32格式包含1位符号位、8位指数位(采用偏移码避免比较错误)和23位尾数位(隐含前导1)。文章以12.34为例详细演示了浮点数的二进制转换过程,说明浮点数通过动态精度实现相对误差恒定,适合科学计算需求。不同浮点格式(如FP16/FP64)原理相同,主要区别在于位数分配。
2025-09-26 09:57:35
889
4
原创 绝对判断已过时?下一代GAN:鉴别器不再问“真不真”,而是问“谁更真”?
本文介绍了相对主义生成对抗网络(rGAN)的核心原理及其改进版本RaGAN。相比传统GAN的绝对判断方式,rGAN通过让鉴别器进行相对比较(真实样本与生成样本之间的对比),解决了训练中的梯度消失问题。RaGAN的损失函数设计使生成器和鉴别器始终获得明确的梯度信号,显著提升了训练稳定性和生成质量。文章详细解析了RaGAN的鉴别器和生成器损失函数计算逻辑,并通过对比表格展示了rGAN在模式崩溃、生成多样性等方面的优势。这种相对比较机制为GAN训练提供了更稳定、更有效的优化路径。
2025-09-22 10:16:35
1046
3
原创 震惊!GAN(生成对抗网络)爆出惊天缺陷!
GAN训练常见问题剖析:生成质量低、模式崩溃和超参数敏感等问题源于GAN原生缺陷——生成器无法影响判别器对真实样本的判断。普通GAN中,判别器对真样本的判别完全独立于生成器,而生成器仅优化假样本的生成质量,缺乏对判别器真样本判断逻辑的反馈。这种机制导致生成器训练易陷入局部最优,难以提升生成多样性和质量。改进方向需突破传统GAN的"绝对判断"局限,让生成器获得更全面的判别反馈。
2025-09-08 10:43:51
882
1
原创 GAN(生成对抗网络)的底层思维竟来自博弈论?
GAN(生成对抗网络)基于博弈论的纳什均衡概念,由生成器(G)和判别器(D)构成动态对抗系统。生成器通过噪声生成假数据以欺骗判别器,判别器则试图区分真假数据。其目标函数为极小极大博弈:G最小化V(D,G),D最大化V(D,G)。当达到纳什均衡时,判别器无法区分真假数据(D(x)=0.5),生成数据分布与真实数据分布一致。GAN的对抗训练推动双方能力提升,最终实现生成高质量数据的目标。纳什均衡强调策略稳定性,而帕累托最优关注全局效率,两者在理想机制中可趋于一致。
2025-09-02 09:59:23
1191
4
原创 【大模型】一图看懂3D因果卷积!
本文将系统性地介绍从1D到3D的因果卷积原理,通过直观的动图演示帮助读者理解其工作机制,并重点探讨3D因果卷积在大规模视频生成中的独特价值和应用前景。
2025-08-04 09:53:26
1740
5
原创 火遍全网的Qwen3-Coder测评!结果意想不到!
本文对阿里最新开源的Qwen3-Coder大模型进行了实际测评。测试内容包括贪吃蛇游戏实现、3D绘图能力及WebSocket对话系统开发。结果炸裂!
2025-07-25 09:17:08
1310
4
原创 为什么即梦那么快?可灵那么慢!
本文分析了影响视频生成模型推理速度的关键因素:压缩比。通过对比LTXVideo(1.9B参数)和Wan2.1(1.3B参数)两个模型发现:1)压缩比差异(192:48)导致Transformer模块推理速度相差4-27倍,这是37秒与260秒耗时差距的主因;2)VAE的时空下采样程度(32x32 vs 8x8)决定压缩比;3)Classifier-Free Guidance参数设置会影响Transformer计算量(CFG≤1时耗时减半)。研究证明在模型规模相近时,提高VAE压缩比是加速视频生成最有效的方法
2025-06-09 10:06:48
2712
5
原创 为什么可灵、即梦只能生成10秒视频?
玩过视频生成模型的朋友可能有过这样的疑问:“为什么可灵、即梦等视频生成模型只能生成大约10秒的视频?”要回答这个问题,我们首先需要了解当前主流的视频生成模型的结构。简而言之:无论多长的视频,都是“嗷”一下直接生成的;而不是一帧一帧逐步生成的。这样做的好处是可以保证内容的一致性,但也受到计算能力的限制,生成视频的长度也将受到限制。
2025-04-29 10:10:06
8553
5
原创 突发!众多AI编程工具底裤被扒,核心提示词泄露!
GitHub上最近出现了一个堪称"核弹级"的开源项目——system-prompts-and-models-of-ai-tools。这个由开发者lucknitelol创建的项目,如同在AI开发者社区投下了一枚深水炸弹,短短时间内就斩获2.6万星标,热度持续攀升。项目内容直指当前最炙手可热的几款AI编程工具(包括Cursor、Devin、Manus等)的核心机密。
2025-04-25 10:00:00
6780
6
原创 不会吧!不会吧!DeepSeek都火了,你还不理解注意力机制?
DeepSeek火了,同时带火的还有注意力机制。因为DeepSeek提出的多头潜在注意(MLA)机制通过低秩键值联合压缩,显著减少了显存消耗并提高了计算效率。本篇文章不讲MLA,先通俗讲解一下注意力机制的原理,回顾一下这个大模型(或者说Transformer)的核心思想,下一篇再来说MLA。
2025-02-25 08:24:41
902
5
原创 Ubuntu搭建ES8集群+加密通讯+https访问
这是一份详细的Ubuntu安装Elasticsearch 8.8.2部署教程,适合刚接触的小伙伴,也能帮上有经验的朋友。从环境准备开始,到安装配置,再到集群搭建,手把手教你怎么操作。包括创建用户、设置权限、优化系统参数、生成证书、配置文件调整等步骤,每一步都清清楚楚。按照这个流程走,相信你很快就能跑起一个稳定的ES集群了,祝你顺利!
2024-12-20 11:16:14
1628
8
原创 【大模型】VAE中的“变分”是什么
VAE(Variational Autoencoder),中文译为变分自编码器。其中AE(Autoencoder)很好理解。那“变分”指的是什么呢?—其实是“变分推断”。变分推断主要用在VAE的损失函数中,那变分推断是什么,VAE的损失函数又是什么呢?往下看吧!
2024-10-28 09:34:42
3370
15
原创 【大模型】通俗解读变分自编码器VAE
大模型已经有了突破性的进展,图文的生成质量都越来越高,可控性也越来越强。很多阅读大模型源码的小伙伴会发现,大部分大模型,尤其是CV模型都会用到一个子模型:变分自编码器(VAE),这篇文章就以图像生成为例介绍一下VAE,并且解释它问什么天生适用于图像生成。配合代码尽量做到通俗易懂。
2024-09-29 08:56:03
6715
22
原创 【论文笔记】独属于CV的注意力机制CBAM-Convolutional Block Attention Module
CBAM(Convolutional Block Attention Module)是2018年被提出的,不同于ViT的Attention,CBAM是为CNN量身定做的Attention模块,实现简单、效果好,你值得拥有。
2024-08-28 09:31:35
8400
20
person_pose_json.zip
2019-12-26
高等数学 下册
2018-09-30
bazel-0.80-dist
2019-02-01
机器学习实战:基于Scikit-Learn和TensorFlow
2018-11-21
程序员的数学 三册全
2018-09-30
机器学习:实用案例解析(中文版,带完整书签)
2019-01-07
高等数学 上册
2018-09-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅