AI论文/书籍
文章平均质量分 87
分享AI方向的论文/数据
胖头汤姆
公众号:【胖头汤姆】,持续更新硬核算法内容
AI从业者,负责过多模态大模型、超大规模分类、聚类、检索等任务;发表过10+ CCF A/B等论文
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
公开、免费、优质的大模型学习资料
该开源仓库包含了开发、预训练和微调一个类似GPT的LLM(大语言模型)的代码,是《Build a Large Language Model (From Scratch)》这本书的官方代码仓库。苏建林大佬是ROPE的作者,ROPE可以被认为是大模型长文本技术的基石性工作,也是少有的由国人提出的、被普遍使用的大模型底层技术。中文链接:https://github.com/MLNLP-World/LLMs-from-scratch-CN。链接:https://github.com/skyzh/tiny-llm。原创 2025-07-13 08:54:51 · 1367 阅读 · 0 评论 -
OmniDocBench:一键评测PDF解析算法
OmniDocBench应该是目前类型最丰富、标注粒度最详细的PDF解析评测数据集了,对于评估PDF解析算法,意义重大。最新的PP-StructureV3简介 - PaddleOCR 文档便给出了在OmniDocBench上的评测对比,可以详细看看。但是,某个算法想利用该benchmark来评测结果时,需要注意数据泄露的风险,尽量避免用该benchmark里的数据进行训练。原创 2025-06-22 11:14:39 · 2433 阅读 · 0 评论 -
MoE开山之作(1991年)——Adaptive Mixtures of Local Experts
长久以来,训练单个多层网络来执行不同子任务常常会产生严重的干扰效应 ,导致学习缓慢和泛化能力差。如果我们事先知道训练集可以自然地分成对应不同子任务的子集,那么可以通过构建由多个“专家”网络和一个决定训练数据使用哪个“专家”网络的MoE模型,来减少干扰。这类系统的一个核心思想是,门控网络将训练数据分配给一个或几个专家,如果输出不正确,权重变化仅限于这些专家(和门控网络)。然而,现有的这类系统通常使用一种鼓励专家之间相互合作而非独立的损失函数。这意味着每个专家必须调整其输出,以抵消所有其他专家留下的残余误差。原创 2025-05-16 09:37:40 · 1627 阅读 · 0 评论 -
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts
针对多模态大语言模型(MLLM)扩展过程中计算成本高、模态支持有限的问题,本文提出基于混合专家(MoE)架构的统一多模态大语言模型Uni-MoE。通过引入特定模态编码器与连接器,模型实现了文本、图像、音频、视频等多种模态的统一表征,并在密集型语言模型中嵌入稀疏MoE架构,仅需激活部分参数即可完成高效训练与推理。跨模态对齐(通过多模态数据训练连接器)、模态专家训练(利用交叉模态数据优化专家网络)和联合调优(基于混合多模态指令数据微调整体模型)。原创 2025-05-07 10:00:40 · 1364 阅读 · 0 评论 -
Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs
🏡| 📄| 🤗| 🤗。原创 2025-04-28 09:07:57 · 1377 阅读 · 0 评论 -
【智能体帮你复现论文】Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning
📄是一个多智能体 LLM 系统,可以将论文转化为代码仓库。它遵循三阶段流水线:规划、分析和代码生成,每个阶段都由专门的智能体处理。我们的方法在 Paper2Code 和 PaperBench 上均优于强大的基线,并生成忠实、高质量的实现。原创 2025-04-27 17:08:10 · 1120 阅读 · 0 评论 -
多模态大语言模型(MLLM)- kimi-vl technical report论文阅读
kimi-vl是月之暗面团队于2025年4月10日发布的多模态大模型。代码链接:https://github.com/MoonshotAI/Kimi-VL有钱真好,超大规模数据+卓越的AI Infra+算法,造就多模态的性能小钢炮。原创 2025-04-25 18:19:20 · 2257 阅读 · 0 评论 -
超大规模分类(一):噪声对比估计(Noise Contrastive Estimation, NCE)
NCE损失对应的论文为《A fast and simple algorithm for training neural probabilistic language models》,发表于2012年的ICML会议。背景在2012年,语言模型一般采用n-gram的方法,统计单词/上下文间的共现关系,比神经概率语言模型(neural probabilistic language models, NPLMs)效果好。现在主流的语言模型都是神经概率语言模 型,核心思想是已知上下文hhh,预测下一个词为www的原创 2024-12-31 09:47:36 · 1321 阅读 · 0 评论 -
超大规模分类(二):InfoNCE
结合噪声对比估计(Noise Contrastive Estimation,NCE)的思想,通过互信息(Mutual Information)最小化来优化大规模分类任务,2019年,DeepMind的研究人员提出。原创 2025-01-05 20:08:42 · 1255 阅读 · 0 评论 -
超大规模分类(三):KNN softmax
传统的分类损失计算输入数据和每个类别中心的距离,来优化模型的训练。KNN softmax通过选择和输入数据最相关的top-K个类别,仅计算输入数据和top-K个类别中心的距离,以减小计算量。KNN softmax首次诞生于达摩院机器智能技术实验室发表的SIGKDD 2020年《Large-Scale Training System for 100-Million Classification at Alibaba》原创 2025-01-10 10:02:48 · 1021 阅读 · 0 评论 -
超大规模分类(四):Partial FC
人脸识别任务里,通常利用全连接层,来做人脸的分类。于是,有研究人员提出Partial FC,拒绝全量更新负类别中心,而是仅更新少部分负类别中心。该做法优势在于。原创 2025-02-26 21:43:57 · 1120 阅读 · 0 评论 -
超大规模分类(五):拍立淘图搜多模态解决方案
拍立淘是阿里巴巴集团的一款图像搜索服务,日均访客量突破5000万,算得上是国内头部的图像搜索应用了。2021年,多模态成为学术界、工业界的研究前沿热点。通过比对用户上传实拍图与商品库内的多模态商品信息,基于大规模多模态分类技术,将核心召回和相关性向量表征等模块由单模态升级到多模态,同款率绝对值显著提升了12个百分点。今天,我们就来一睹拍立淘多模态解决方案——大规模多模态分类技术。原创 2025-03-05 11:15:51 · 1285 阅读 · 0 评论 -
多模态大语言模型(MLLM)-Blip2深度解读
Blip2深度解读原创 2024-10-07 12:08:44 · 3466 阅读 · 1 评论 -
多模态大语言模型(MLLM)-InstructBlip深度解读
从数据集收集、数据配比、模型优化等角度,深度解读InstructBlip论文原创 2024-10-09 22:28:57 · 1719 阅读 · 0 评论 -
多模态大语言模型(MLLM)-Blip3/xGen-MM
没看到Blip和Blip2的一作Junnan Li,不知道为啥不参与Blip3整体pipeline服从工业界的一贯做法,加数据,加显卡,模型、训练方式简单,疯狂scale up。原创 2024-10-17 11:20:33 · 1648 阅读 · 0 评论 -
多模态大语言模型(MLLM)-Deepseek Janus
Deepseek出品,必属精品。原创 2024-10-23 10:12:16 · 2618 阅读 · 0 评论 -
文本表征的Scaling Laws:Scaling Laws For Dense Retrieval
文本表征在工业界具有非常大的作用,应用场景主要是搜索排序相关性,估计该论文会成为文本表征迭代的指导手册。不得不说,小红书对这篇论文的宣传真下成本,中国大陆机构首次!小红书搜索与清华合作获得SIGIR2024最佳论文奖 (qq.com)给定一个语料库,检索任务需要为一个特定的query,查找最相关的句子。定义qqq和ppp分别是query和句子,f⋅;θf(\cdot;\theta)f⋅;θ表示从文本到表征的映射函数,参数为θ\thetaθqqq和pppsqp;θ。原创 2024-12-31 09:43:24 · 1342 阅读 · 0 评论 -
北京大学法律大模型——高质量数据、MoE架构、多智能体协同
袁粒老师博士毕业于新加坡南洋理工大学,指导老师有颜水成(前昆仑万维首席科学家)、冯佳时(现字节豆包大模型视觉基础研究团队负责人),大模型人脉、资源非常不错。不仅如此,也是开源项目opensora的发起者。Chatlaw的整体流程非常复杂,需要构建图谱,多智能体协同。以图谱来说,知识图谱的构建成本很高,而且难以保证知识的实时性。然而,高成本却没有带来显著的性能提升,比较遗憾。但Chatlaw提出一种和用户交流、反馈的机制,非常具有启发性。原创 2024-12-19 09:14:09 · 1490 阅读 · 0 评论 -
属性预测相关论文阅读Ⅱ
转载自属性预测论文Cao J, Li Y, Zhang Z. Partially shared multi-task convolutional neural network with local constraint for face attribute learning[C]//Proceedings of the IEEE Conference on Computer Vision and...转载 2019-08-04 16:34:50 · 721 阅读 · 0 评论 -
Focal Loss for Dense Object Detection(RetinaNet)论文及代码解析
@[TOC](Focal Loss for Dense Object Detection(RetinaNet)论文及代码解析)Focal Loss for Dense Object Detection(RetinaNet)论文及代码解析本文针对Focal Loss for Dense Object Detection做出自己的判断和解析,不一定代表正确性(鄙人并不做目标检测。。。)论文下载链接(arxiv国内镜像):http://xxx.itp.ac.cn/pdf/1708.02002v2论文代码原创 2020-05-18 00:23:39 · 676 阅读 · 1 评论 -
针对CNN的一种新的数据增强方式:RICAP
本文针对日本神户大学发表在ACML2018的一篇论文《RICAP: Random Image Cropping and Patching Data Augmentation for Deep CNNs》进行解读。MotivationsCNN在不同领域都取得了令人振奋的成绩,主要原因在于CNN中的大量参数能够拟合各种各样的数据分布。然而过多的参数,相比较而言较小的数据会导致一定程度的过拟合现象...转载 2020-02-14 00:44:02 · 1664 阅读 · 0 评论 -
End-to-end comparative attention networks for person re-identification
End-to-end comparative attention networks for person re-identification该论文中简单的关于attention的部分整体网络架构如下:CNN部分采用截断的预训练VGG Net,去除最后三层全连接层,得到特征X使用端到端的学习方式,优化下面提到的多任务loss函数多重任务loss函数:三元loss函数:分类的sof...原创 2019-02-15 17:56:13 · 1040 阅读 · 0 评论 -
属性预测相关论文阅读Adaptively weighted multi-task deep network for person attribute classification
转载自https://mp.weixin.qq.com/s?__biz=MzU4OTgzNjQ3OQ==&mid=2247483671&idx=1&sn=99c4a7aa29af4d67acccccd3c485d68b&chksm=fdc638c7cab1b1d111e90a542be807dff31e732de514283f82a208387c7cb57af062...转载 2019-07-28 19:14:33 · 1280 阅读 · 0 评论 -
Random Erasing&Cutout——两种相似的数据增强方式
本文针对两种相似的数据增强方式——Random Erasing&Cutout进行解读。他们的相似点在于都是随机对输入图像遮挡一部分。Random Erasing论文下载链接:https://arxiv.xilesou.top/pdf/1708.04896.pdf论文代码:https://github.com/zhunzhong07/Random-ErasingMotivation...转载 2020-03-12 23:46:14 · 5608 阅读 · 0 评论 -
统计学习方法第一章思维导图
统计学习方法第一章思维导图(具体的以后更。。。)感谢李航老师《统计学习方法》原创 2018-11-25 20:10:30 · 3108 阅读 · 0 评论 -
统计学习方法第二章
统计学习方法第二章思维导图(是不是像目录的结构,就这样结束太草率)具体解释:感知机感知机是二类分类的线性分类模式,输入为实例的特征向量(输入向量的不同分量结合在一起就是指特征向量),输出为实例的类别。感知机模型具体做的一件事情就是通过将W乘以X(都为矩阵)加上一个常数项来拟合数据。也就是书上说的得到一个分离超平面。(对于属性为二维的情况)感知机学习策略我们需...原创 2018-11-30 10:33:03 · 465 阅读 · 0 评论
分享