机器学习与AI生成创作-优快云博客

转载用DeepSeek搭建AI Agent ！

更好地理解构建个人知识库的步骤和实例，穿插讲解了构建个人知识库所需技术的基础知识和概念，包括：向量数据是什么、为什么要进行数据向量化，以及RAG的概念和应用等。都应该掌握的DeepSeek高级使用方法，帮助我们用DeepSeek搭建智能体和个人知识库，通过API调用进行AI编程，从而在编程之路上实现质的飞跃。此外，书中手把手教学两个极具实用性的应用案例，大家学习后将掌握如何将DeepSeek集成到自己的项目中，提升编程效率，实现智能化功能的快速落地。，巧妙地穿插介绍了智能体和工作流的概念。

2025-04-03 17:16:47 4

转载学术志重磅新书：极速上手DeepSeek，高效做事不内耗！

扫码备注【送书】进群，参与包邮赠送【DeepSeek极速上手：高效做事不内耗】抽奖活动，截止2025-03-17 22:00朋友们，今年是不是被DeepSeek疯狂刷屏啦？看网友用它10分钟写完方案、半小时搞定数据分析，自己想试试却卡在“服务器繁忙，请稍后再试”的痛谁懂啊？现在，学术志推出了写给打工人的DeepSeek指南《DeepSeek极速上手：高效做事不内耗》，由郭泽德、宋义平、朱晔三位专...

2025-03-13 17:02:51 47

转载第一本给程序员看的DeepSeek图书上市了！

扫码备注【送书】进群，参与包邮赠送【DeepSeek 原理与项目实战】抽奖活动，截止2025-03-16 22:00DeepSeek爆火到现在，留给程序员们的时间不多了。仅仅一个多月的时间，国内诸多领域的头部力量纷纷迅速接入DeepSeek。国民级应用如微信、阿里、百度，手机终端厂商荣耀、小米、OPPO、vivo，汽车终端领域的比亚迪、一汽、上汽，还有政企单位、居民服务部门以及各大高校，均积极投...

2025-03-11 11:21:26 43

转载用好DeepSeek-VL2的心法，就在上交大ACM班俞勇教授团队的这本新书里

正文开始前，先派送福利扫码备注【送书】进群，参与包邮赠送【动手学计算机视觉】抽奖活动，截止2025-03-09 22:00下文来源异步图书Part.1视觉多模态模型DeepSeek-VL2发布近日，DeepSeek发布了视觉多模态模型DeepSeek-VL2。该模型在视觉能力上进行了显著升级，采用了MoE（Mixture of Expert）架构和动态切图策略，支持动态分辨率图像处理。对于计...

2025-03-04 20:51:14 48

转载给普通人、打工人与创业者！清华大学DeepSeek最全最强教程！350页PPT直接领取！...

累计350页及视频下载：关注公众号「机器学习与AI生成创作」，后台发消息回复【清华DS】领取！

2025-02-23 10:04:14 31

转载已近2年的消沉！GAN再度归来，模型大幅简化，训练更稳定，逆袭扩散模型？！...

本文来源机器之心编辑部GANs are so back!?2025 年了，GAN 能否击败扩散模型？答案是 Yes！本周五，AI 社区开始讨论一种全新极简主义 GAN（生成对抗网络）。现代版 GAN 基准论文成为了周五 HuggingFace 热度最高的研究。该论文也入选了 NeurIPS 2024。它并不像以往那样走 tricks 路径 —— 通过一场「现代化」改造，GAN 现在可以进行更...

2025-01-11 16:14:26 220

转载抽卡效率提升4.8倍！东北大学等开源优化版Stable-Diffusion.cpp：分辨率越高越快，生成质量更好...

本文来源新智元编辑：LRST【新智元导读】北京大学等研究团队优化了Sdcpp框架，通过引入Winograd算法和多项策略，显著提升了图像生成速度和内存效率，最高可提速4.79倍。在AI生成图像领域，Stable Diffusion已经成为一个里程碑式的工具，凭借其强大的图像生成能力，被广泛应用于艺术创作、商业设计等领域。然而，生成高质量图像的过程常常需要付出大量的时间和内存，这对于硬件资源...

2025-01-02 11:21:47 109

转载普通人怎么用AI？周鸿祎等强烈推荐，一法破万法！

正文开始前，先派送福利扫码备注【送书】进群，参与包邮赠送【AI帮你赢：人人都能用的AI方法论】抽奖活动1，截止2025-01-05 22:00下文来源异步图书Part 1周鸿祎作序推荐，AI帮你赢！红衣大叔周鸿祎最近又搞了新花样，他亲自出演黑客短剧，直接带火360的AI搜索引擎“纳米搜索”。同时，他亲自作序推荐的一本教普通人怎么用AI成为超级个体的好书——由谭少卿老师创作的《AI帮你赢：人...

2025-01-02 11:21:47 182

原创 2025，图像CV算法工程师，如何拥抱 MLLM大模型、Diffusion等前沿技术？

喜迎元旦！【AI生成创作与计算机视觉】一杯奶茶价，跟进AIGC+CV+大模型视觉前沿【AI生成创作与计算机视觉】知识星球2022、2023年开始，基于扩散模型的AI绘画、ChatGPT系列大模型主导的AIGC狂潮已来！大模型下的科研、工业应用方向，已在重构进行中！计算机视觉、图像处理方向已迎来新一轮变革！AIGC将渗透到每一个细分领域！跟进、学习了解最经典、最新、最前沿的AIGC、CV+大语言...

2024-12-31 11:35:22 1154

转载《机器学习漫画小抄》：彩绘插图，简介明晰！爱了！

正文开始前，先派送福利扫码备注【送书】进群，参与包邮赠送【机器学习漫画小抄】抽奖活动，截止2024-12-27 22:00下文来源异步图书今天，小异要向你介绍的是一套在外网爆火的的机器学习闪记卡。这套闪记卡由机器学习大神Chris Albon博士创作，因其言简意赅的语言、易懂易记的彩绘插图、简洁明晰的排版，能帮助学习者像背单词一样轻松搞定机器学习关键概念，而获得了数万人的关注，被超多大咖推荐...

2024-12-24 17:46:01 93

转载 INFP：照片+音频的说话人驱动 | 字节新方案

本文转载自机器之心本文作者来自字节跳动智能创作数字人团队，介绍了名为「INFP」的交互式人像生成技术。利用该技术生成的智能体能像真人一样在多轮对话中实现自由的听说行为以及无缝的状态切换。在大语言模型和 AIGC 的热潮下，科研人员对构建「视觉对话智能体」（Visual Chat Agent）展现出极大兴趣。其中，可实时交互的人像生成技术（Audio-Driven Real-Time Inter...

2024-12-24 17:46:01 229

转载中科大少年班王兵博士：碳基智能—>硅基智能，智能从何而来，将往何去？ | 《智能崛起：AI文明演化史》...

正文开始前，先派送福利扫码备注【送书】进群，参与包邮赠送【智能崛起：AI文明演化史】抽奖活动，截止2024-12-1622:00Part.1智人之上，智能崛起两个月前，正当OpenAI宫斗续集轰轰烈烈地进行的时候，《人类简史》作者赫拉利出版了一本关于信息网络如何塑造、又摧毁我们的认知世界的新书《智人之上》，引发热议。他发出警示：我们正一头扎进可能毁灭我们自身的、由新型信息网络组成的人工智能时代...

2024-12-13 16:53:06 197

转载 Hyper-YOLO：超图计算+目标检测，清华发布，用超图捕捉高阶视觉关联，性能新SOTA...

本文来源新智元编辑：LRST【新智元导读】Hyper-YOLO是一种新型目标检测方法，通过超图计算增强了特征之间的高阶关联，提升了检测性能，尤其在识别复杂场景下的中小目标时表现更出色。YOLO（You Only Look Once）系列是目标检测领域中的主流方法，以其高效性和实时性而著称。然而，现有的YOLO模型在处理跨层特征融合和复杂的高阶特征关系时存在局限，无法充分捕捉跨位置和跨尺度的...

2024-12-13 16:53:06 146

转载 NeurIPS 2024 最佳论文出炉 | 北大字节VAR获最佳论文、厦大清华获亚军

本文来源机器之心编辑部刚刚，人工智能顶会 NeurIPS 公布了今年的最佳论文（包括 Best Paper 和 Best Paper Runner-up，大会注册者可以看到）。一共有两篇论文获得最佳论文奖：一是由北京大学、字节跳动研究者共同完成的《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale P...

2024-12-04 17:51:57 471

转载更适合普通人的AI科普！清华大学刘知远团队新作：道尽28位AI天才们的热血传奇...

正文开始前，先派送福利扫码备注【送书】进群，参与包邮赠送【AI群星闪耀时】抽奖活动，截止2024-12-0822:00也可自行购买，专属链接：历史书很小，装不下一个人的灿烂一生；但是星空很大，容得下所有人在历史长河中闪耀。今天小异带来一本新书，由清华大学刘知远团队创作的《AI群星闪耀时》，这本书讲述了AI发展历史上，那些让人心潮澎湃的瞬间，他们就像一颗颗璀璨的星星在夜空中闪耀。书中讲述了28位...

2024-12-04 17:51:57 129

转载高中生！NeurIPS 2024开卷！人大附中、北师大实验中学等摘得3篇Spotlight

本文来源新智元编辑：静音好困【新智元导读】NeurIPS 2024高中生论文录用结果公布！论文接受率仅为6.4%，3名国内学生杀出重围，斩获Spotlight。就在刚刚，NeurIPS 2024首届高中论文录用结果公布了！今年，NeurIPS 2024首次设置了「高中生赛道」，直接将「学好AI要从娃娃抓起」变成了现实。此举曾在今年4月引发激烈的讨论，有人认为这为有科研潜力的高中生提供了宝...

2024-11-21 18:05:53 269 1

转载故事思维，顶会论文的秘诀。。

正文开始前，先派送福利扫码备注【送书】进群，参与包邮赠送【科技论文写作指南】纸质图书抽奖活动，截止2024-11-25晚上10点也可自行购买，专属链接：写论文，大概是每个理工科学生的噩梦。对着电脑屏幕抓耳挠腮，熬夜码字到天明，好不容易憋出几千字，却发现“创新点”写得干巴巴，“摘要”像流水账， “相关工作”更是让人头大。忐忑不安地提交稿件，结果却收到了冷冰冰的拒稿邮件，那种绝望，你懂的！据统计...

2024-11-21 18:05:53 105

转载文生图排行榜第一！创业公司red_panda，中国公司？

本文来源机器之心编辑部「red_panda」（小熊猫）模型有主了。前几天在 Hugging Face 文本转图像排行榜上排名第一的 red_panda，是一个名为 Recraft V3 的模型，由 AI 初创公司 Recraft 提供。Recraft V3 以 1172 的 ELO 评分位居第一，超越了 Midjourney、OpenAI 和其他公司的模型。榜单地址：https://hugg...

2024-11-20 10:01:16 294

转载高中生都能读懂！《破解深度学习》让AI不再难学！

正文开始前，先派送福利扫码备注【送书】进群，参与免费寄送【破解深度学习（基础篇）】或【破解深度学习（核心篇）】（2选1）纸质图书抽奖活动，截止2024-11-05晚上10点也可自行购买，专属链接：作者：瞿炜，前新东方AI研究院创始院长，中国科学院大学教授、模式识别国家重点实验室客座研究员，哈佛大学、京都大学客座教授，美国伊利诺伊大学人工智能博士。他是国家部委特聘专家，曾任多个国际知名学术期刊编委...

2024-11-01 15:05:12 400

转载 OmniGen：新扩散模型，一统图像生成，架构还高度简化、易用

本文来源机器之心编辑部大型语言模型（LLM）的出现统一了语言生成任务，并彻底改变了人机交互。然而，在图像生成领域，能够在单一框架内处理各种任务的统一模型在很大程度上仍未得到探索。近日，智源推出了新的扩散模型架构 OmniGen，一种新的用于统一图像生成的多模态模型。OmniGen 具有以下特点：统一性：OmniGen 天然地支持各种图像生成任务，例如文生图、图像编辑、主题驱动生成和视觉条件生成...

2024-11-01 15:05:12 272

原创太全！30+方向大梳理！ECCV2024上的AIGC扩散模型在研究什么？！

CVPR 2024 | 绝！diffusion 扩散模型100+篇论文、40+方向30个方向130篇！CVPR 2023最全AIGC论文30个方向！ICCV 2023 最全AIGC论文25个方向！CVPR 2022 GAN论文汇总35个方向！ICCV 2021 最全GAN论文汇总超110篇！CVPR 2021 最全GAN论文梳理超100篇！CVPR 2020 最全GAN论文梳理在最新的视觉顶会...

2024-10-21 18:32:11 1820

原创 ECCV 2024 | 汇总！7项基于SAM万物分割模型的研究工作！

1、CC-SAM: SAM with Cross-feature Attention and Context for Ultrasound Image Segmentation#ECCV2024 #SAM #图像分割 #医学图像Segment Anything Model (SAM) 在自然图像分割领域取得显著成功，但在医学成像领域的部署遇到了挑战。具体来说，该模型在处理具有低对比度、模糊边界...

2024-10-12 11:30:27 2061

原创 ECCV 2024 | 真妙！21项研究用diffusion扩散模型做3D视觉！（附源码地址）

针对最新的ECCV 2024研究成果，本文精心挑选汇总、并概述了21项使用扩散模型做3D相关的研究工作。1、3DEgo: 3D Editing on the Go!提出3DEgo，解决一个新问题，即通过文本提示指导从单目视频直接合成逼真的3D场景。传统方法通过一个三阶段过程构建一个文本条件的3D场景，涉及使用诸如COLMAP的Structure-from-Motion（SfM）库进行姿态估计，使用...

2024-09-26 14:31:28 2911

转载 ECCV 2024 | 用扩散模型diffusion生成训练数据（6篇论文汇总）

注：欢迎参加文末最新《多模态大模型》纸质新书包邮赠送活动！1、Data Augmentation via Latent Diffusion for Saliency Prediction显著性预测模型受限于有限多样性和标注数据的数量。诸如旋转和裁剪等标准数据增强技术改变了场景构成。提出一种新的用于深度显著性预测的数据增强方法，编辑自然图像同时保持真实世界场景的复杂性和变化性。由于显著性取决于高级和...

2024-09-25 17:24:48 1286

转载 MMRole多模态角色扮演：与「李白」赏图赋诗，同「猴哥」直面天命 | 人大高瓴提出...

注：欢迎参加文末最新《多模态大模型》纸质新书包邮赠送活动！下文来源机器之心随着大语言模型的飞速发展，角色扮演智能体（RPAs）正逐渐成为 AI 领域的热门话题。这类智能体不仅能够为人们提供陪伴、互动和娱乐，还在教育、社会模拟等领域展现出重要的应用潜力。然而，当前市面上的大多数角色扮演智能体都只会「文字聊天」，其理解能力仅限于单一的文本模态，远远无法与具备多模态感知能力的人类相比。这让我们不禁思...

2024-09-24 17:18:22 254

转载仅用4块GPU、不到3天训练出「开源版GPT-4o」，国内团队最新研究

本文来源机器之心编辑：小舟、陈陈LLaMA-Omni能够接收语音指令，同步生成文本和语音响应，响应延迟低至 226ms，低于 GPT-4o 的平均音频响应延迟 320ms。以 ChatGPT 为代表的大型语言模型（LLM）已成为强大的通用任务解决器，但大多数 LLM 仅支持基于文本的交互，这限制了它们在不适合文本输入输出的场景中的应用。GPT-4o 的出现使得通过语音与 LLM 进行交互...

2024-09-24 17:18:22 247

转载 ECCV 2024 | AI字体生成：瞥一眼就能模仿笔迹

‍‍下文来源机器之心来自华南理工大学、新加坡国立大学、昆仑万维以及琶洲实验室的研究者们提出一种新的风格化手写文字生成方法，仅需提供单张参考样本即可临摹用户的书写风格，支持英文，中文和日文三种文字的临摹。一眼临摹 AI 的研究背景手写体自动临摹是一项有趣的 AI 生成式任务，用户只需将少量书写样本输入到笔迹模仿 AI 中，就能获得一套符合自己书写风格的电子字体。该字体可以用于社交和办公软件中，帮...

2024-09-19 11:42:59 1127

转载 ECCV2024 | 一图实现街道级定位！AddressCLIP：端到端图像地理定位大模型

下文来源 AddressCLIP项目组投稿量子位 | QbitAI拔草星人的好消息来啦！中科院自动化所和阿里云一起推出了街景定位大模型，只要一张照片就能实现街道级精度的定位。有了模型的帮助，再也不用害怕遇到种草“谜语人”了。比如给模型看一张旧金山的街景之后，它直接给出了具体的拍摄位置，并列举了附近的多个候选地址。该模型名为AddressCLIP，基于CLIP构建。‍相关论文AddressC...

2024-09-19 11:42:59 247

原创中秋佳节，半送AIGC学术前沿知识星球了！

欢度中秋！【AI生成创作与计算机视觉】星球活动再起！仅需一杯奶茶价格，跟进AIGC+CV视觉前沿技术【AI生成创作与计算机视觉】知识星球2022、2023年开始，基于扩散模型的AI绘画、ChatGPT系列大模型主导的AIGC狂潮已来！大模型下的科研、工业应用方向，已在重构进行中！计算机视觉、图像处理方向已迎来新一轮变革！AIGC将渗透到每一个细分领域！跟进、学习了解最经典、最新、最前沿的AIG...

2024-09-15 17:35:47 359

转载 ECCV 2024 | 以生成图像为训练集！扩散模型diffusion方向汇总

1、DataDream: Few-shot Guided Dataset Generation文生图扩散模型在图像合成中取得最先进结果，但尚未证明在下游应用的有效性。先前工作提出通过提供有限的真实数据访问来生成图像分类器训练数据。这些方法难以生成符合分布的图像或描绘细粒度特征，阻碍在合成数据集上训练的分类模型泛化。提出DataDream框架，在少量目标类别的少量真实示例引导下合成更忠实代表实际数据...

2024-09-15 17:35:47 348

转载内推先人一步！虎牙2025届校园招聘全面启动

2025届（2025年毕业）的小伙伴看过来！！！长按下述二维码，搜寻心仪岗位，注意区分【社招】、【校招】，校招请选择岗位前缀含【校招】字样的投递！（技术/产品/运营/设计/职能均有），直接上传简历即可完成内推！▲ 务必长按上述二维码，才能直达内推链接，选岗投递即可以下海报转自虎牙招聘...

2024-09-12 20:36:18 182

原创 ECCV 2024 | 基于扩散模型diffusion的通用图像编辑，新方向汇总

1、InstructGIE: Towards Generalizable Image Editing最近的图像编辑方法的泛化能力仍受到限制。为应对这一挑战，引入了一种新的图像编辑框架，通过增强上下文学习能力和统一语言指令来提高泛化鲁棒性。该框架包括一个专门针对图像编辑任务进行优化的模块，利用VMamba模块和编辑位移匹配策略来增强上下文学习。此外，揭示一个特别设计用于纠正生成图像中的损坏细节（如人...

2024-09-12 20:36:18 1319

原创 ECCV 2024 | 扩散模型diffusion如何改进？方向论文大汇总

1、∞-Brush : Controllable Large Image Synthesis with Diffusion Models in Infinite Dimensions从错综复杂的领域特定信息中合成高分辨率图像仍是生成建模中的一个重大挑战，尤其适用于大图像域（如数字组织病理学和遥感）中的应用。现有方法面临着关键限制：像素空间或潜在空间中的条件扩散模型在超出它们训练的分辨率时就会失去保...

2024-09-11 17:54:24 3398

转载多模态，彻底爆发了！

OpenAI再进化！全新GPT-4o mini发布，多模态AI更强大，在5月中旬，OpenAI向世界揭开了GPT-4o的神秘面纱，这个全能的多模态巨人站在了GPT-4的肩膀上，将人工智能的边界推向了新的高度！不难看出，AI大模型已是大势所趋！掌握大模型、多模态、LangChain、Fine-tuning技术的程序员、势必是未来更抢手、更具竞争力的AI技术人才！为了让大家更好的抓紧大模型机遇，特邀本...

2024-08-22 11:03:18 140

转载单张照片实时视频换脸！直播版Deepfake太恐怖！5分钟安装不挑硬件

本文来源白交衡宇发自凹非寺量子位 | 公众号 QbitAI马斯克“最新直播”，不好好扣他那polo衫扣子，拿个手机打光晃来晃去。看他脑袋左转右转，嘴角扬起的微笑，ak都压不下去。Why啊？！答案揭晓——这活灵活现的马斯克，根本不是马斯克本马！而是一个最新AI换脸项目生成的：只需一张照片，就能换脸搞直播。不得不说，这样的马斯克还挺吓人的，有点鬼片怪蜀黍内味了~本地安装一下，就能达到实时...

2024-08-22 11:03:18 321

转载新PyTorch API：几行代码实现不同注意力变体，兼具FlashAttention性能和PyTorch灵活性...

本文来源机器之心编辑：陈陈用 FlexAttention 尝试一种新的注意力模式。理论上，注意力机制就是你所需要的一切。然而在实际操作中，我们还需要优化像 FlashAttention这样的注意力机制的实现。尽管这些融合的注意力机制大大提高了性能，且支持长上下文，但这种效率的提升也伴随着灵活性的丧失。对于机器学习研究人员来说，这就像是一种「软件彩票」—— 如果你的注意力变体不适合现有的优化...

2024-08-14 18:07:33 134

转载大神！李宏毅课程集结成《深度学习详解》出版！

正文开始前，先派送福利扫码备注【送书】进群，参与免费寄送【深度学习详解】纸质图书抽奖活动，活动截止日期2024-08-18晚上10点。也可自行购买，戳如下，专属 5折优惠！京东专属链接：GitHub上持续火爆的《LeeDL-Tutorial》项目，一发布就迅速获得了11.4K的星星！这个项目基于李宏毅老师“机器学习”课程，课程全网超过百万播放量，如今Datawhale新书《深度学习详解》终于...

2024-08-14 18:07:33 157

转载豆瓣9.3 | 这本人工智能教材，被哈佛、清华等1500所大学采用！

正文开始前，先派送福利扫码备注【送书】进群，参与免费寄送【人工智能：现代方法（第4版）】纸质图书抽奖活动，活动截止日期2024-07-28晚上10点。也可自行购买，戳如下，专属 5折优惠！京东专属链接：一本经典巨著。畅销全球100多个国家和地区、火了29年的超绝影响力;被哈佛、剑桥、清华等1500多所大学用作教材，启蒙无数AI大牛;权威到一旦人们对某些人工智能的概念发生争议时，就会以它的讲...

2024-07-25 22:28:46 311

转载中国大学专业 | 2024年人工智能专业评级前25排名！

3月6日，中国大学评价领先品牌CNUR正式发布了2024年人工智能专业评级排名。在本年度的榜单中，清华大学、南京大学、中国科学技术大学、上海交通大学、西安电子科技大学被评为“S级”。北京大学、哈尔滨工业大学、浙江大学、电子科技大学、华中科技大学被评为“A+”。关注公众号【机器学习与AI生成创作】，更多精彩等你来读如何跟进 AIGC+CV 视觉前沿技术？CVPR 2024 | diffusion扩散...

2024-07-25 22:28:46 618

转载赠书 | 豆瓣8.4《Python极客项目编程》，经典Python编程三剑客之一！

正文开始前，先派送福利扫码备注【送书】进群，参与免费寄送【Python极客项目编程】纸质图书抽奖活动，活动截止日期2024-06-30晚上10点。也可自行购买，戳如下，专属 5折优惠！京东专属链接：时隔9年，畅销近20万册，豆瓣评分8.4，被誉为'Python编程三剑客'之一的《Python极客项目编程》终于迎来了第2版中文版的问世！作为一本经典图书的延续，第2版不仅基于Python3.9...

2024-06-28 19:48:35 177

空空如也

空空如也