- 博客(12)
- 收藏
- 关注
原创 生成图片模型演进:2.Diffusion Model到Diffusion Models Beat GANs 的可控性探索之路
在生成图片模型的演进过程中,除了追求生成图像的多样性和逼真度,可控性成为了另一个至关重要的目标。如何让模型根据我们的需求生成特定内容的图像,而不是随机生成一些看似逼真却无法控制的图像,成为了近年来研究的焦点。本文将沿着保证图片可控性这条脉络,详细介绍从扩散模型(Diffusion Model)到 DDPM,再到 Diffusion Models Beat GANs 的发展历程。
2025-02-20 20:00:00
727
原创 生成图片模型演进:1.从GAN到VQ-VAE的多样性探索之旅
在人工智能的世界里,生成图片模型的发展历程犹如一场精彩纷呈的冒险,从最初的对抗生成网络(GAN)到自编码器(AE),再到变分自编码器(VAE)以及矢量量化变分自编码器(VQ-VAE),每个模型都在不断突破自我,致力于生成更加丰富多样、逼真且可控的图像。今天,我们将以丰富生成图片的多样性为主线,带你深入了解这些模型的发展历程、面临的问题、模型结构、优势以及创新点。
2025-02-20 11:46:01
779
原创 视觉识别全解析:从任务类型到经典模型,一文带你深入理解
视觉识别是人工智能领域的重要研究方向,其应用范围广泛,涵盖了从安防、工业到医疗、自动驾驶等多个领域。CNN 作为经典的图像分类模型,其发展历程见证了深度学习在视觉领域的崛起。YOLO 开创了单阶段目标检测的先河,以其速度和简洁性在实时应用中占据重要地位。U-Net 则是图像分割领域的经典之作,其独特的 U 型结构和跳跃连接为后续模型设计
2025-02-13 08:30:00
1764
原创 视觉模型演进:从CNN到VILT的全面解析
CNN:开创了深度学习在图像处理领域的先河,奠定了现代计算机视觉的基础。ResNet:解决了网络深度增加带来的退化问题,推动了深度神经网络的进一步发展。ViT:将Transformer引入视觉领域,展示了自注意力机制在视觉任务中的强大能力。:结合局部和全局信息,提升了计算效率和多尺度特征提取能力。CLIP:通过多模态对比学习,赋予了模型语义理解能力和零样本学习能力。VILT:构建了更高效的多模态Transformer架构,实现了更深入的多模态信息融合。
2025-02-09 08:24:38
1441
原创 当产品经理搞懂神经网络:原来和做用户增长一个套路?
老板让你预测下周DAU(输入历史数据),模型就是那个敢拍胸脯说"能冲到100万"的实习生(输出结果),至于他怎么算的——可能参考了天气、活动排期、甚至老板心情(隐藏参数)记住:训练神经网络和带团队本质相通——给方向、勤反馈、容试错。下次技术同学再提"要调整学习率",你就理解为:"这次增长策略迭代幅度小点,别又玩脱了"别被"梯度下降""反向传播"吓到,本质上这就是个不断试错迭代的用户增长模型。把神经元想象成不同部门员工,要完成企业的战略目标:把一批28x28像素的灰度图识别成数字。
2025-02-07 22:06:38
915
原创 大模型微调(Fine-tuning)全解析
微调是指在预训练好的基座模型(如GPT、Llama)基础上,进一步调整模型参数,使其输出更符合特定业务需求。简单来说,就是让通用模型“学点新技能”,比如学会医疗诊断或儿童讲故事。
2025-02-04 14:43:36
2233
原创 GPT系列技术发展脉络:从GPT1到GPT4
混合Common Crawl(60%)、WebText2(22%)、Books(8%)、Wikipedia(3%)。总token量300B。在语言模型、阅读理解、翻译等8项任务中,15亿参数模型Zero-shot性能接近监督学习baseline。GPT-1的微调阶段较为原始,直接去掉预训练模型的线性层,换上一个新的线性层,用于特定任务的输出。使用BooksCorpus数据集(7000本书籍,约5GB文本):1.3B参数RLHF模型人类偏好率超越175B基础模型。支持分类/蕴含/相似度/多选题四类任务。
2025-02-04 14:42:58
1554
原创 当产品经理第一次搞懂大模型训练:原来和做火锅底料一个道理?
作为一个摸爬滚打n年的产品狗,今天想用煮火锅的姿势,给新人拆解大模型训练的秘密。毕竟我被"Pretrain、SFT、PPO"这些黑话暴击时,最渴望的就是人话版说明书
2025-01-28 09:22:32
629
原创 打开神经网络的黑箱
定义模型是一个数学公式,用于解决特定问题。模型接收输入数据,经过一系列计算,输出结果。分类问题最常见的模型类型,用于解决“N选1”的问题,例如图像识别、文本分类等。输出为多个概率值,代表每个类别被选中的概率。
2025-01-27 10:45:14
648
原创 深度解析GPT与Llama模型训练体系
例如给定"人类简史",模型会计算各候选字概率(冒号20%、"从"15%等),最终选择概率最高的输出。例如经过训练后,模型能判断"人类简史:"比"人类简史加减乘除"更符合常规表达。虽然都涉及任务适配,但SFT是模型内在能力的重塑,而检索增强生成(RAG)更像给模型配备"外部知识库":对每个问题生成多个回答变体(如Llama生成20个问题),形成"答案超市"▸ Meta开发五级评分体系,细粒度区分"显著优于"与"略微优于"局限:需维持奖励模型与主模型的"动态平衡",如同同时驯服两匹野马。
2025-01-26 14:47:08
1027
原创 中国剩余定理
中国剩余定理是数论中的一个关于一元线性同余方程组的定理,也叫孙子定理,威尔逊定理、欧拉定理、孙子定理、费马小定理并称数论四大定理,并且感觉在ACM中孙子定理使用的遥远多于另外三个定理。那么什么是孙子定理呢? 我国古代数学名著《孙子算经》载有一道数学问题:“今有物不知其数,三三数之剩二,五五数之剩三,七七数之剩二。问物几何?”这里的几何指多少的意思。翻译成数学语言就是:求正整数N,
2014-04-24 20:19:39
434
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅