
AGI 论文精读
文章平均质量分 96
AGI 论文精读
youcans_
电子出版社《数字图像处理—基于OpenCV/Python》作者
展开
-
【技术报告】GPT-4o 原生图像生成的应用与分析
GPT-4o 的图像生成,具有精准呈现文本、严格遵循指令、巧妙运用4o 内置知识库与对话上下文的特点。本文详细介绍 GPT-4o 的图像生成,并全文翻译官方技术报告 “Addendum to GPT-4o System Card: Native image generation”。原创 2025-04-03 15:49:52 · 424 阅读 · 0 评论 -
【技术报告】谷歌开源多模态大模型 Gemma-3
2025年 3月1,谷歌推出最新多模态大模型 Gemma-3。这是一组轻量级、最先进的开源模型,可以直接在手机、PC、工作站上快速运行。本文详细介绍 Gemma-3 技术报告。原创 2025-03-16 12:23:11 · 2508 阅读 · 0 评论 -
【文献阅读】Zotero 新手完全教程:安装、使用与插件
Zotero 作为一款免费开源的文献管理工具,具有强大的功能和灵活的扩展性,特别是可以集成 Deepseek 进行 AI辅助文献阅读。本文针对新手,从安装与配置开始,详细介绍如何利用 Zotero 及其插件打造高效的文献阅读与研究环境。原创 2025-03-13 21:16:04 · 2437 阅读 · 0 评论 -
【DeepSeek论文精读】8. 原生稀疏注意力(NSA)
2025年 2月,DeepSeek 发布最新论文提出一种新的注意力机制 NSA,用于超快长上下文训练和推断的本地可训练的稀疏注意力机制,还具有与硬件对齐的特点。NSA 融合动态分层稀疏策略,结合粗粒度token压缩和细粒度token选择,兼顾全局上下文感知与局部精度,改进了传统稀疏注意力设计。原创 2025-03-04 07:00:00 · 717 阅读 · 0 评论 -
【医学影像 AI】GPT-4V 用于多模态医学诊断的案例研究
GPT-4V(ision)可以用于医疗应用吗?上海交通大学 Chaoyi Wu 等发布研究报告【GPT-4V用于多模态医学诊断的案例研究】。本研究旨在评估OpenAI最新模型GPT-4V(vision)的性能,特别是在多模态模式医学诊断领域。探索了 GPT-4V 在多种临床任务中的能力,包括成像模式和解剖识别、疾病诊断、报告生成、疾病定位。原创 2025-02-19 06:00:00 · 1029 阅读 · 0 评论 -
【DeepSeek论文精读】7. 总结:DeepSeek 的发展历程与关键技术
本系列前文已经逐篇介绍了从 DeepSeek LLM、DeepSeek MoE、DeepSeek V2、DeepSeek V3 到 DeepSeek R1 的内容。本文围绕 DeepSeek 系列论文和模型的发展历程,从基础架构探索、混合专家(MoE)优化、高效推理突破、强化学习驱动 四个阶段 进行总结和分析,原创 2025-02-11 07:00:00 · 4419 阅读 · 0 评论 -
【DeepSeek论文精读】1. 从 DeepSeek LLM 到 DeepSeek R1
DeepSeek R1 推理大模型的发布颠覆了我们的认知。本文介绍从 DeepSeek LLM、DeepSeek MoE、DeepSeek V2、DeepSeek V3 到 DeepSeek R1 的发展历程。本系列将逐篇解读 DeepSeek 论文和模型。原创 2025-01-29 14:31:31 · 36341 阅读 · 0 评论 -
【DeepSeek论文精读】2. DeepSeek LLM:以长期主义扩展开源语言模型
论文介绍了DeepSeek LLMs,这是一系列在2万亿标记的英语和中文大型数据集上从头开始训练的开源模型。本文深入解释了超参数选择、扩展定律以及做过的各种微调尝试。校准了先前工作中的扩展定律,并提出了新的最优模型/数据扩展-缩放分配策略。原创 2025-02-07 06:30:00 · 4194 阅读 · 2 评论 -
【DeepSeek论文精读】3. DeepSeekMoE:迈向混合专家语言模型的终极专业化
论文提出了MoE语言模型的DeepSeekMoE架构,目的是实现终极的专家专业化(expert specialization)。通过细粒度的专家分割和共享专家隔离,DeepSeekMoE相比主流的MoE架构实现了显著更高的专家专业化和性能。原创 2025-02-07 12:12:03 · 3217 阅读 · 0 评论 -
【DeepSeek论文精读】4. DeepSeek-V2:强大、经济且高效的混合专家语言模型
DeepSeek-V2 是一个混合专家(MoE)语言模型,采用多头潜在注意力(MLA)和 DeepSeek 混合专家 (MoE) 的创新架构,在资源利用和性能之间达到很好的平衡。DeepSeek-V2 支持 128K 长度的上下文,具有强大的性能,经济训练和高效推理的特点。原创 2025-02-08 14:44:43 · 2190 阅读 · 0 评论 -
【DeepSeek论文精读】5. DeepSeek-V3 技术报告
DeepSeek-V3是一款强大的混合专家(MoE)语言模型,总参数量为6710亿,在性能上超越了其他开源模型,并达到了与领先闭源模型相当的水平。DeepSeek-V3不仅采用多头潜在注意力MLA和深度探索MoE架构,还开创了无辅助损失的负载均衡策略。原创 2025-02-09 08:00:00 · 10032 阅读 · 0 评论 -
【DeepSeek论文精读】6. DeepSeek R1:通过强化学习激发大语言模型的推理能力
本文由 youcans@xidian 对论文 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 进行摘编和翻译。该论文版权属于原文期刊和作者,本译文只供研究学习使用。原创 2025-02-03 14:27:56 · 6923 阅读 · 0 评论 -
【微软:多模态基础模型】(1)从专家到通用助手
2023 年 9 月,微软在 CVPR2023 发表论文「 多模态基础模型:从专家到通用助手 」(Multimodal Foundation Models: From Specialists to General-Purpose Assistants) 。本文全面综述了多模态基础模型的分类和演化,这些模型展示了视觉和视觉语言能力,并重点关注了从专家向通用助手的过渡。原创 2024-11-14 15:52:22 · 1724 阅读 · 0 评论 -
【微软:多模态基础模型】(2)视觉理解
微软在 CVPR2023 发表论文「 多模态基础模型:从专家到通用助手 」(Multimodal Foundation Models: From Specialists to General-Purpose Assistants) 。本文全面综述了多模态基础模型的分类和演化,这些模型展示了视觉和视觉语言能力,并重点关注了从专家向通用助手的过渡。原创 2024-11-14 21:28:19 · 1243 阅读 · 0 评论 -
【微软:多模态基础模型】(3)视觉生成
2023 年,微软在 CVPR2023 发表论文「 多模态基础模型:从专家到通用助手 」(Multimodal Foundation Models: From Specialists to General-Purpose Assistants) 。本文全面综述了多模态基础模型的分类和演化,这些模型展示了视觉和视觉语言能力,并重点关注了从专家向通用助手的过渡。原创 2024-11-16 12:02:49 · 909 阅读 · 0 评论 -
【微软:多模态基础模型】(4)统一视觉模型
2023 年,微软在 CVPR2023 发表论文「 多模态基础模型:从专家到通用助手 」(Multimodal Foundation Models: From Specialists to General-Purpose Assistants) 。本文全面综述了多模态基础模型的分类和演化,这些模型展示了视觉和视觉语言能力,并重点关注了从专家向通用助手的过渡。原创 2024-11-18 14:42:00 · 1113 阅读 · 0 评论 -
【微软:多模态基础模型】(5)多模态大模型:通过LLM训练
2023 年 6 月,微软在 CVPR2023 发表论文「 多模态基础模型:从专家到通用助手 」(Multimodal Foundation Models: From Specialists to General-Purpose Assistants) 。本文全面综述了多模态基础模型的分类和演化,这些模型展示了视觉和视觉语言能力,并重点关注了从专家向通用助手的过渡。原创 2024-11-19 17:47:07 · 1705 阅读 · 0 评论 -
【微软:多模态基础模型】(6)多模态代理:与LLM一起链接工具
2023 年 6 月,微软在 CVPR2023 发表论文「 多模态基础模型:从专家到通用助手 」(Multimodal Foundation Models: From Specialists to General-Purpose Assistants) 。本文全面综述了多模态基础模型的分类和演化,这些模型展示了视觉和视觉语言能力,并重点关注了从专家向通用助手的过渡。本节还包括全书的 568 篇参考文献。原创 2024-11-20 08:00:00 · 1386 阅读 · 0 评论 -
【AGI】Llama-3 官方技术报告
Meta开源Llama 3大模型,并发布92页重磅技术报告,全面揭秘其背后的技术细节,涵盖数据、训练、多模态等多个方面。原创 2024-07-25 16:02:48 · 5352 阅读 · 0 评论 -
【LLM】吴恩达『微调大模型』课程完全笔记
『Finetuning Large Language Models』是DeepLearning.AI出品的免费课程,版权属于DeepLearning.AI(https://www.deeplearning.ai/)。本文是对该课程内容的翻译整理,只作为教育用途,不作为任何商业用途。原创 2024-06-15 11:15:57 · 2621 阅读 · 2 评论 -
【GPT4】GPT4 官方报告解读
【GPT-4 】官方[研究进展]、[技术报告]全面解读。综合性能,图像输入,私人定制,事实判断的局限性,风险与应对,模型训练过程,用户政策和价格,API 使用。GPT-4 是 OpenAI 在深度学习领域的最新里程碑。GPT-4 是一个大型多模态模型,可以接受图像和文本输入,发出文本输出。虽然 GPT-4在许多现实世界场景中的能力仍然不如人类,但在各种专业和学术基准上已经表现出人类水平的性能。原创 2023-03-19 15:10:54 · 6760 阅读 · 8 评论 -
【LLM】吴恩达『提示工程』课程完全笔记下载
『ChatGPT Prompt Engineering for Developers』是 吴恩达/DeepLearning.AI 为开发者准备的提示工程课程。本文对该课程内容的完整翻译和整理,完整 PDF 版已上传到 GitHub,详见内文。原创 2023-05-05 09:57:32 · 10364 阅读 · 5 评论 -
【GPT4】微软 GPT-4 测试报告(1)总体介绍
本文详细解读:微软研究院最新发布的 「 人工智能的火花:GPT-4 的早期实验 」,本文公开了对 GPT-4 进行的全面测试。GPT-4 除了掌握语言之外, 无需任何特殊提示就可以解决跨越数学、编程、视觉、医学、法律、心理学等领域的新颖而困难的任务。GPT-4 可以被视为 通用人工智能(AGI)的早期版本。原创 2023-03-27 14:31:17 · 9977 阅读 · 2 评论 -
【GPT4】微软 GPT-4 测试报告(2)多模态与跨学科的组合
微软研究院在 arXiv上发布了论文【Sparks of Artificial General Intelligence: Early experiments with GPT-4】,公开了对 GPT-4 进行的全面测试。 本系列介绍该文的主要内容,本文为第2部分: 多模态与跨学科的组合(Multimodal and interdisciplinary composition)原创 2023-03-28 12:08:02 · 4405 阅读 · 2 评论 -
【GPT4】微软 GPT-4 测试报告(3)GPT4 的编程能力
微软研究院最新发布「 GPT-4 的早期实验 」 ,公布了对 GPT-4 进行的全面测试。本文介绍第三部分:GPT4 的编程能力。GPT-4 可以处理广泛的编程任务,从编程挑战到现实世界的应用,从低级汇编到高级框架,从简单的数据结构到复杂的程序。GPT-4 还可以对代码执行进行推理,模拟指令的效果,并用自然语言解释结果。GPT-4 甚至可以执行伪代码,这需要解释在任何编程语言中都无效的非正式和模糊的表达。原创 2023-03-29 09:53:30 · 7311 阅读 · 8 评论 -
【GPT4】微软 GPT-4 测试报告(4)GPT4 的数学能力
欢迎关注【youcans的AGI学习笔记】原创作品,火热更新中微软 GPT-4 测试报告(1)总体介绍微软 GPT-4 测试报告(2)多模态与跨学科能力微软 GPT-4 测试报告(3)编程能力微软 GPT-4 测试报告(4)数学能力【GPT4】微软 GPT-4 测试报告(4)数学能力4. 数学能力(Mathematical abilities)4.1 与 GPT4 的数学对话(A mathematical conversation with GPT-4)4.1.1 对原问题做第一次变化4.1.原创 2023-03-30 06:00:00 · 3630 阅读 · 1 评论 -
【GPT4】微软 GPT-4 测试报告(5)与外界环境的交互能力
微软研究院发布「 GPT-4 的早期实验 」 ,公布了对 GPT-4 进行的全面测试。本文介绍第 5 部分:GPT4 与外界的交互。主要结论:文本是一个强大的接口,允许 GPT-4 执行需要理解环境、任务、动作和反馈的行动,并进行相应的调整。原创 2023-03-31 06:30:00 · 1534 阅读 · 0 评论 -
【GPT4】微软 GPT-4 测试报告(6)与人类的交互能力
微软研究院新发布 「GPT-4 的早期实验 」 ,公布了对 GPT-4 进行的全面测试。本文介绍第 6 部分:GPT4 与人类的交互能力。基本结论为:GPT-4具有非常先进的智力水平。GPT-4 在生成与输出一致的解释方面表现出了卓越的技能。原创 2023-03-30 09:26:13 · 2534 阅读 · 1 评论 -
【GPT4】微软 GPT-4 测试报告(7)判别能力
微软研究院最新发布「GPT-4 的早期实验 」,公布了对 GPT-4 进行的全面测试。本文介绍第 7 部分:GPT4 的判别能力。基本结论为:GPT-4 能够很好地理解上下文信息,通过上下文判别语境。 GPT-4 还能够从多个答案(解释)中,判别和理解哪一个答案更合理。原创 2023-03-31 10:05:56 · 2433 阅读 · 0 评论 -
【GPT4】微软 GPT-4 测试报告(8)局限性与社会影响
微软研究院对 GPT-4 进行的全面测试,本文介绍第 8 部分:局限性、第9部分:社会影响GPT4 的自回归模型不允许回溯,因此规划能力相对较弱,在不连续任务中存在局限性。GPT4 将挑战许多人类专业知识的传统概念和假设,也将为职业创新和转型提供丰富的机会。期待通过人工智能技术支持人类的能动性和创造力,并增强和扩展人类的能力。GPT4 对于人类社会的各个方面都将带来深刻影响。原创 2023-04-01 08:01:56 · 3448 阅读 · 0 评论 -
【GPT4】微软 GPT-4 测试报告(9)结论与展望
微软研究院最新发布的论文 「 人工智能的火花:GPT-4 的早期实验 」 ,公布了对 GPT-4 进行的全面测试。本文介绍最后一部分:结论与展望。原创 2023-04-02 06:00:00 · 1758 阅读 · 0 评论 -
【Prompt】7 个向 chatGPT 高效提问的方法
7 个向 chatGPT 高效提问的方法:1. 明确问题,2. 简洁清晰,3. 避免歧义,4. 提供上下文,5. 避免重复,6. 适当追问,7. 尊重机器人。本文是作者与 GPT 进行的研究分析。作者对 chatGPT 的回答进行了整理和文字润色。原创 2023-04-08 11:15:37 · 15392 阅读 · 3 评论 -
【AIGC】Visual ChatGPT 视觉模型深度解析
本文万字详解图文版 ChatGPT的原理与使用。介绍Visual ChatGPT的处理流程、操作实例、技术原理、系统架构、模块说明、基本规则,Github下载方法、运行指南、代码解读、常见错误,论文解读。原创 2023-03-15 21:09:31 · 15228 阅读 · 26 评论 -
【AIGC】大模型协作系统 HuggingGPT 深度解析
HuggingGPT 将语言作为通用接口、将 LLM 作为控制器,管理现有的人工智能模型。HuggingGPT 通过 ChatGPT 管理 HuggingFace 上集成的数百个模型,覆盖文本分类、目标检测、语义分割、图像生成、问答、文本到语音、文本到视频等不同模态和领域的任务。HuggingGPT 的工作流程:任务规划,模型选择,任务执行,响应生成。原创 2023-04-03 13:50:17 · 10151 阅读 · 3 评论