自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(137)
  • 资源 (12)
  • 收藏
  • 关注

原创 广告这口饭,ChatGPT 终于端起来了!

ChatGPT:从“无广告清流”到“或许也要恰饭了”?没错,OpenAI 最近内部测试广告功能的消息一出,科技圈立刻炸锅。一直以来,一打开 ChatGPT,就是那种“我只为回答而生”的纯净体验,突然要变成“我回答你,但我顺便推点东西给你”?这多少让人有点不习惯。

2025-12-03 10:29:01 10204 10

原创 重磅!DeepSeek发布V3.2系列模型!

DeepSeek今天(12月1日)同步推出两款正式版本AI模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,前者主打日常应用场景,后者在多项国际竞赛中获得金牌。这标志着开源模型与闭源商业模型的性能差距进一步缩小。

2025-12-02 11:22:57 11276 7

原创 DeepSeek为什么这么慢?

DeepSeek 的出现引发了广泛关注,它以极低的训练成本与高参数规模令人惊叹。但用户在实际体验中往往会提出一个最直观的疑问:“为什么 DeepSeek 这么慢?”

2025-11-27 08:17:00 11062 13

原创 【论文笔记】剪枝综述:大模型也需要减肥哟!

今天我们来看一篇关于深度神经网络剪枝的综述。所谓“剪枝”,你可以把它想象成给一个庞大笨重的 AI 模型做减肥和塑形:把那些用处不大的神经元连接剪掉,只保留真正关键、最有贡献的部分。这样做的目的,就是让模型变得更轻、更快、更省内存,同时还能保持原本的聪明程度,不会因为瘦身过头而变傻。

2025-11-27 08:16:23 8727 4

原创 【论文笔记】知识蒸馏的全面综述

今天看一篇关于知识蒸馏(Knowledge Distillation, KD)的全面综述

2025-11-24 11:23:09 5909 17

原创 【论文笔记】大型语言模型的知识蒸馏与数据集蒸馏

我们来看一篇关于大型语言模型的知识蒸馏与数据集蒸馏的综述

2025-11-24 11:22:50 6367 20

原创 【论文笔记】视频RAG-Vgent:基于图结构的视频检索推理框架

Vgent专门用于解决解决长视频理解的难题。简单来说,就是让AI能够更好地看懂和理解几十分钟甚至几小时的视频内容。下面我用通俗易懂的方式给你讲讲它最核心的亮点。

2025-11-21 10:24:59 6417 15

原创 【论文笔记】Video-RAG:开源视频理解模型也能媲美GPT-4o

Video-RAG就像给视频理解模型配了一个“智能小助手”,能自动从视频里提取关键文字信息来帮忙,让模型看得更明白、答得更准。

2025-11-21 10:15:17 6984 16

原创 微博开源VibeThinker-1.5B大模型:15亿参数,挑战万亿参数AI巨头

当整个AI行业都在追逐"更大即更强"的 scaling law 时,微博AI团队带来的VibeThinker-1.5B却用实实在在的数据告诉我们:小模型,同样可以拥有大智慧。这个仅有15亿参数的"小个子",在AIME2025数学竞赛中斩获74.4分,超越了参数量400倍于它的DeepSeek R1;在代码生成任务上,它以51.1分的成绩小幅领先Magistral Medium。更令人惊叹的是,这一切的实现成本不到8000美元。

2025-11-20 09:57:59 2657 15

原创 离了大谱,顶会的审稿人有 21% 竟是 AI!

离了大谱,ICLR 2026 的审稿人有 21% 竟是 AI。

2025-11-20 09:56:36 1984 10

原创 【论文笔记】真正看得懂图像的Qwen3-VL

        今年九月阿里新开源了Qwen3-VL,它是最良心的国产开源多模态大模型。不仅能够精准识别图像中的物体、解析复杂文档(如表格、图表和手写文字),还能理解长达数小时的视频内容,甚至精确定位到秒级的事件片段。

2025-11-19 11:05:24 2626 9

原创 【论文笔记】DeepSeek-OCR:你的知识库终于有救了!

DeepSeek-OCR由DeepSeek在2025年10月20日发布,它探索了一种全新的文本理解思路:用图像作为文本的高效压缩媒介。

2025-11-19 10:32:51 2530 14

原创 【论文笔记】Transformer的时代,正在被Kimi Linear改写。

月之暗面(Moonshot AI)最新发布的开源Kimi Linear架构,用一种全新的注意力机制,在相同训练条件下首次超越了传统的全注意力模型,真正做到了“既快又聪明”。

2025-11-18 09:06:40 3036 10

原创 从零手撸Mamba!

从零手撸Mamba!

2025-11-17 10:39:28 4962 15

原创 最新研究:对AI越粗鲁,回答正确率越高!

最新研究:对AI语气越粗鲁回答正确率越高!

2025-11-13 09:52:21 7565 22

原创 Mamba的前世今生!

从1980年代只会短期记忆的“金鱼”RNN,到2019年HiPPO理论为长记忆打下“地基”,再到2021年S4造出精密的“记忆宫殿”,最终在2023年诞生了像人一样懂得“抓重点”的Mamba(S6),这条进化之路,就是一部AI进化史。

2025-11-10 10:05:14 10580 5

原创 备受追捧的Mamba强在哪?

 作为三代核心序列模型,Mamba在学术界非常火热,是发(shui)论文的热点研究方向,下面我们就一起看看Mamba是怎么个事。

2025-10-31 09:39:55 6298 7

原创 性能超越Transformer的Mamba到底是什么

Mamba是一种状态空间模型,由卡内基梅隆大学和普林斯顿大学的研究者在2023年底提出。解决了传统的循环神经网络(RNN)在处理长序列数据时存在梯度消失和长期依赖等问题;同时也解决了Transformer的自注意力机制在处理长序列时,计算量和内存占用会呈平方级增长的问题。

2025-10-30 09:06:12 8500 8

原创 大模型中的KVCache是什么

小伙伴们肯定发现了,现在的大模型推理速度越来越快,甚至有的文本大模型已经可以实现“腹泻式”输出。其实优化速度的手段有很多,其中一个就是KVCache 。

2025-10-24 12:40:21 5682 5

原创 【论文笔记】LTX-Video极致速度的视频生成模型

​LTXVideo是基于Transformer的潜在扩散模型(Latent Diffusion Model),通过整合视频变分自编码器(Video-VAE)和去噪Transformer的功能,实现了高效且高质量的视频生成。        LTXVideo是现在开源模型中速度数一数二的(可能是最快的),它的高速来自于高压缩比,那LTXVideo除了高压缩比还有什么创新呢?LTXVideo的论文说了什么呢?下面我来简单解读一下。​

2025-10-23 10:18:42 8133 6

原创 大模型的FP32、FP16、INT8等格式都是干什么用的?

小伙伴们在开源大模型社区浏览下载页面时,常能看到模型文件名后跟着"FP16""INT8"或"INT4"的后缀——比如"Llama3-8B-FP16",或是标注为"INT4量化版"。这些看似神秘的字母组合,其实是模型参数的存储格式,直接影响着模型的内存占用、计算效率与性能表现。

2025-10-20 10:07:50 3126 4

原创 图卷积网络GCN:图像理解的新视角

传统CNN处理图像就像通过“小窗口”看图,只能捕捉局部特征。而图卷积网络(GCN)为我们提供了一种更灵活的视角——它将图像视为一张由像素点连接成的“关系网”。通过这种方式,GCN允许信息在任意关联的像素间直接传递,哪怕它们相隔很远。这使它能够捕捉图像中复杂的全局信息,为图像理解打开了新的大门。       

2025-10-14 10:59:16 6312 14

原创 超越CNN:GCN如何重塑图像处理

GCN 用于图像处理时,并没有 CNN 中 “固定形状、滑动遍历” 的卷积核,但存在承担 “特征变换” 功能的权重矩阵,其作用与 CNN 卷积核的 “参数化特征提取” 本质相通,只是适配图结构的操作形式不同。下面我将用GCN完成一个简单的图像分类任务。

2025-10-13 10:48:16 6191 7

原创 一图看懂图卷积网络GCN

我们熟悉的卷积常用来处理图片,靠滑动窗口提取局部像素特征;而图卷积网络(GCN),是把这种“找局部关联”的思路,用到了更灵活的“图”数据上。

2025-10-09 10:22:16 1193 4

原创 速度、精度、轻量化——YOLO26震撼发布!

YOLO26:更好、更快、更小的 YOLO 型号!

2025-09-29 13:28:47 1682 4

原创 计算机骗了你!数字根本不是“算出来”的!

本文介绍了浮点数的存储原理,重点解释了指数位和尾数位的作用。浮点数采用类似科学计数法的表示方法,通过指数位确定数值范围(数量级),尾数位决定精度。FP32格式包含1位符号位、8位指数位(采用偏移码避免比较错误)和23位尾数位(隐含前导1)。文章以12.34为例详细演示了浮点数的二进制转换过程,说明浮点数通过动态精度实现相对误差恒定,适合科学计算需求。不同浮点格式(如FP16/FP64)原理相同,主要区别在于位数分配。

2025-09-26 09:57:35 889 4

原创 绝对判断已过时?下一代GAN:鉴别器不再问“真不真”,而是问“谁更真”?

本文介绍了相对主义生成对抗网络(rGAN)的核心原理及其改进版本RaGAN。相比传统GAN的绝对判断方式,rGAN通过让鉴别器进行相对比较(真实样本与生成样本之间的对比),解决了训练中的梯度消失问题。RaGAN的损失函数设计使生成器和鉴别器始终获得明确的梯度信号,显著提升了训练稳定性和生成质量。文章详细解析了RaGAN的鉴别器和生成器损失函数计算逻辑,并通过对比表格展示了rGAN在模式崩溃、生成多样性等方面的优势。这种相对比较机制为GAN训练提供了更稳定、更有效的优化路径。

2025-09-22 10:16:35 1046 3

原创 震惊!GAN(生成对抗网络)爆出惊天缺陷!

GAN训练常见问题剖析:生成质量低、模式崩溃和超参数敏感等问题源于GAN原生缺陷——生成器无法影响判别器对真实样本的判断。普通GAN中,判别器对真样本的判别完全独立于生成器,而生成器仅优化假样本的生成质量,缺乏对判别器真样本判断逻辑的反馈。这种机制导致生成器训练易陷入局部最优,难以提升生成多样性和质量。改进方向需突破传统GAN的"绝对判断"局限,让生成器获得更全面的判别反馈。

2025-09-08 10:43:51 882 1

原创 GAN(生成对抗网络)的底层思维竟来自博弈论?

GAN(生成对抗网络)基于博弈论的纳什均衡概念,由生成器(G)和判别器(D)构成动态对抗系统。生成器通过噪声生成假数据以欺骗判别器,判别器则试图区分真假数据。其目标函数为极小极大博弈:G最小化V(D,G),D最大化V(D,G)。当达到纳什均衡时,判别器无法区分真假数据(D(x)=0.5),生成数据分布与真实数据分布一致。GAN的对抗训练推动双方能力提升,最终实现生成高质量数据的目标。纳什均衡强调策略稳定性,而帕累托最优关注全局效率,两者在理想机制中可趋于一致。

2025-09-02 09:59:23 1191 4

原创 【大模型】3D因果卷积动图怎么画

​这篇文章主要记录这篇文章中画图用到的代码​

2025-08-04 09:53:46 497 1

原创 【大模型】一图看懂3D因果卷积!

本文将系统性地介绍从1D到3D的因果卷积原理,通过直观的动图演示帮助读者理解其工作机制,并重点探讨3D因果卷积在大规模视频生成中的独特价值和应用前景。

2025-08-04 09:53:26 1740 5

原创 火遍全网的Qwen3-Coder测评!结果意想不到!

本文对阿里最新开源的Qwen3-Coder大模型进行了实际测评。测试内容包括贪吃蛇游戏实现、3D绘图能力及WebSocket对话系统开发。结果炸裂!

2025-07-25 09:17:08 1310 4

原创 为什么即梦那么快?可灵那么慢!

本文分析了影响视频生成模型推理速度的关键因素:压缩比。通过对比LTXVideo(1.9B参数)和Wan2.1(1.3B参数)两个模型发现:1)压缩比差异(192:48)导致Transformer模块推理速度相差4-27倍,这是37秒与260秒耗时差距的主因;2)VAE的时空下采样程度(32x32 vs 8x8)决定压缩比;3)Classifier-Free Guidance参数设置会影响Transformer计算量(CFG≤1时耗时减半)。研究证明在模型规模相近时,提高VAE压缩比是加速视频生成最有效的方法

2025-06-09 10:06:48 2712 5

原创 为什么可灵、即梦只能生成10秒视频?

玩过视频生成模型的朋友可能有过这样的疑问:“为什么可灵、即梦等视频生成模型只能生成大约10秒的视频?”要回答这个问题,我们首先需要了解当前主流的视频生成模型的结构。简而言之:无论多长的视频,都是“嗷”一下直接生成的;而不是一帧一帧逐步生成的。这样做的好处是可以保证内容的一致性,但也受到计算能力的限制,生成视频的长度也将受到限制。

2025-04-29 10:10:06 8553 5

原创 突发!众多AI编程工具底裤被扒,核心提示词泄露!

​GitHub上最近出现了一个堪称"核弹级"的开源项目——system-prompts-and-models-of-ai-tools。这个由开发者lucknitelol创建的项目,如同在AI开发者社区投下了一枚深水炸弹,短短时间内就斩获2.6万星标,热度持续攀升。项目内容直指当前最炙手可热的几款AI编程工具(包括Cursor、Devin、Manus等)的核心机密。

2025-04-25 10:00:00 6780 6

原创 不会吧!不会吧!DeepSeek都火了,你还不理解注意力机制?

        DeepSeek火了,同时带火的还有注意力机制。因为DeepSeek提出的多头潜在注意(MLA)机制通过低秩键值联合压缩,显著减少了显存消耗并提高了计算效率。本篇文章不讲MLA,先通俗讲解一下注意力机制的原理,回顾一下这个大模型(或者说Transformer)的核心思想,下一篇再来说MLA。

2025-02-25 08:24:41 902 5

原创 Ubuntu搭建ES8集群+加密通讯+https访问

这是一份详细的Ubuntu安装Elasticsearch 8.8.2部署教程,适合刚接触的小伙伴,也能帮上有经验的朋友。从环境准备开始,到安装配置,再到集群搭建,手把手教你怎么操作。包括创建用户、设置权限、优化系统参数、生成证书、配置文件调整等步骤,每一步都清清楚楚。按照这个流程走,相信你很快就能跑起一个稳定的ES集群了,祝你顺利!

2024-12-20 11:16:14 1628 8

原创 【大模型】VAE中的“变分”是什么

VAE(Variational Autoencoder),中文译为变分自编码器。其中AE(Autoencoder)很好理解。那“变分”指的是什么呢?—其实是“变分推断”。变分推断主要用在VAE的损失函数中,那变分推断是什么,VAE的损失函数又是什么呢?往下看吧!

2024-10-28 09:34:42 3370 15

原创 【大模型】通俗解读变分自编码器VAE

大模型已经有了突破性的进展,图文的生成质量都越来越高,可控性也越来越强。很多阅读大模型源码的小伙伴会发现,大部分大模型,尤其是CV模型都会用到一个子模型:变分自编码器(VAE),这篇文章就以图像生成为例介绍一下VAE,并且解释它问什么天生适用于图像生成。配合代码尽量做到通俗易懂。

2024-09-29 08:56:03 6715 22

原创 【论文笔记】独属于CV的注意力机制CBAM-Convolutional Block Attention Module

CBAM(Convolutional Block Attention Module)是2018年被提出的,不同于ViT的Attention,CBAM是为CNN量身定做的Attention模块,实现简单、效果好,你值得拥有。

2024-08-28 09:31:35 8400 20

ChatGLM分词词典

用程序生成的ChatGLM分词词典,有助于帮助研发人员更直接的了解ChatGLM的分词原理

2024-01-29

person_pose_json.zip

内有 COCO_test-dev2017_detections_AP_H_609_person.json COCO_val2017_detections_AP_H_56_person.json两个文件

2019-12-26

Mina小Demo聊天工具

Mina小Demo 带swing界面的聊天工具 可脱离eclipse运行,可最小化至托盘

2013-11-13

android摇一摇随机变图片

android一个摇晃手机变图片的小程序,并伴随震动,带源码。

2013-04-01

高等数学 下册

本教材是以国家教育部高等工科数学课程教学指导委员会制定的《高等数学课程教学基本要求》为标准,以培养学生的专业素质为目的,充分吸收编者们多年来教学实践与教学改革成果编写而成的。本书分为上、下册.上册含函数与极限、导数与微分、微分中值定理与导数应用、不定积分、定积分及其应用、微分方程等内容。下册含向量代数与空间解析几何、多元函数微分学、重积分、曲线积分与曲面积分、无穷级数等内容。每节均配有习题,每章配有综合练习题,书末附有习题参考答案,便于教与学。

2018-09-30

bazel-0.80-dist

bazel是Google开源的一套编译构建工具,广泛应用于Google内部,包括TensorFlow项目。修改TensorFlow内部源码,需要使用bazel来编译,故有必要了解下bazel。

2019-02-01

机器学习实战:基于Scikit-Learn和TensorFlow

机器学习实战:基于Scikit-Learn和TensorFlow中文版;kindle格式,mobi,包括源码。自己留存。 本书主要分为两个部分。第一部分为第1章到第8章,涵盖机器学习的基础理论知识和基本算法——从线性回归到随机森林等,帮助读者掌握Scikit-Learn的常用方法;第二部分为第9章到第16章,探讨深度学习和常用框架TensorFlow,一步一个脚印地带领读者使用TensorFlow搭建和训练深度神经网络,以及卷积神经网络。

2018-11-21

程序员的数学 三册全

《程序员的数学》是2012年由人民邮电出版社出版的图书,作者是结城浩。本书面向程序员介绍了编程中常用的数学知识,借以培养初级程序员的数学思维。读者无需精通编程,也无需精通数学,只需具备四则运算和乘方等基础知识,就可以阅读本书。

2018-09-30

机器学习:实用案例解析(中文版,带完整书签)

机器学习:实用案例解析/(美)康威(Conway, D.)等著;陈开江,刘逸哲, 孟晓楠译. —北京:机械工业出版社,2013.3 当今各行业,尤其是互联网,数据规模越来越大,要从中有效地发现模式来提高生产力,用传统的方式已经几乎不可能,只能借助计算机来完成诸多使命。因此,机器学习这一新兴的学科变得越来越重要,它已经在搜索、推荐、数据挖掘等多个领域闪耀光芒。

2019-01-07

高等数学 上册

上册内容为函数与极限、导数与微分、中值定理与导数的应用、不定积分、定积分、定积分的应用、空间解析几何与向量代数等七章,书末附有二、三阶行列式简介、几种常用的曲线、积分表、习题答案与提示。

2018-09-30

jquery1.7.2.chm 中文API

jquery1.7.2.chm 中文API,好不容易找到的,给自己留着,也分享给大家。

2013-04-24

jar文件查看器

jar文件查看器 免安装 直接用 给自己留着

2013-08-12

How Tomcat Works中文版

How Tomcat Works中文版,一份pdf,一份word,很好很强大

2013-11-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除