Eric An-优快云博客

原创我的计算机视觉学习之路

在计算机视觉我认为最有价值的研究是：医学图像处理、文字图像处理、遥感图像处理

2021-01-15 09:46:36 283 1

原创【智能体系统AgentOS】核心九：MCP工具

MCP（Master Control Program）是计算机控制系统中的核心部分，负责协调和管理整个系统的功能模块。

2025-03-30 20:50:18 962

原创【智能体系统AgentOS】核心八：OpenVLA和OpenMTA

视觉语言动作模型

2025-03-10 18:15:58 139

原创基于DeepSeek技术范式生成式（通用人工智能）探索：分层式强化学习

分层式强化学习通过‌任务分解‌和‌层级结构‌，将复杂问题拆分为多个子任务或子目标，使智能体能够高效学习长期策略。核心思想是‌“分而治之”‌，通过高层策略（宏观决策）和底层策略（微观执行）协作完成任务。分层式强化学习通过‌抽象化‌和‌模块化‌显著提升了复杂任务的学习效率，但在层级自动化、奖励设计等方面仍需突破。通过元控制器（Meta-Controller）动态选择子任务，如‌HiPPO（Hierarchical Policy with Options）‌等新型框架。‌内部策略‌（执行子任务的具体动作）

2025-02-20 14:35:33 346

原创【智能体系统AgentOS】核心六：多智能体系统

Swarm是OpenAI低调发布多智能体工具，目标是为了让多个智能体协同工作。由OpenAI Solutions团队近期低调开源的一个实验性框架，专门用于帮助开发者轻松高效地设计、编排和管理多智能体系统（Multi-Agent Systems）。这一工具的核心目标是让多个智能体协同工作，以更高效地完成复杂的任务和工作流。开源项目地址：https://socialdeductionllm.github.io/论文：https://arxiv.org/abs/2502.06060。

2025-02-19 10:48:38 173

原创 DeepSeek相关创新

模型结构部分特征嵌入：特征提取：MLA训练方法部分推理方法部分。

2025-02-19 10:39:50 87

原创 KIMI的四大创新

1.1：多头潜在注意力MLA，通过低秩压缩技术减少KV缓存提高显卡消耗和计算复杂度来提升推理效率。1.2：多词元预测方法MTP，能够同时预测多个未来词元token，提升数据密度效率和训练训练密度。1.3：定期持续学习，收集数据和并行学习训练，从而实现模型能够不断更新适应全新数据环境。1.4：数据合成与强化学习，实现不依赖数据标注，监督微调的情况获取更高推理水平。1.8：通过PTX实现高效的模型训练和极致的算法优化水平。1.9：高效的推理方案是基于混合专家及潜在的稀疏注意力。1.6：多模态能力Janus。

2025-02-12 11:25:10 226

原创【智能体系统AgentOS】核心五：端侧与云侧协同对比强化学习

端侧多模态模型是一种能够在终端设备（如手机、平板、智能穿戴设备等）上运行，对多种模态数据（如文本、图像、音频、视频等）进行处理和理解的人工智能模型，以下是相关介绍：特点轻量化与高效性：为适应端侧设备有限的计算资源、存储和能源，端侧多模态模型通常采用轻量化设计，参数量相对较小。通过模型压缩、量化等技术，在保证一定性能的前提下，降低对硬件的要求，提高运行效率，实现快速推理和响应。多模态融合能力：能够将不同模态的数据进行有效融合和理解。

2025-01-23 15:52:35 322

原创【智能体系统AgentOS】核心四：执行器

执行器工具插件。

2025-01-23 15:32:39 123

原创【智能体系统AgentOS】核心三：状态机

LLM

2025-01-23 15:31:52 128

原创【智能体系统AgentOS】核心二：工作流

BPM：关注整体流程的优化和改进，适合复杂、跨部门的业务流程。RPA：专注于自动化特定任务，适合规则明确、重复性高的任务。两者可以结合使用，RPA作为BPM的一部分，自动化其中的某些任务，从而进一步提升整体流程的效率。

2025-01-23 15:30:41 990

原创【智能体系统AgentOS】核心二：记忆结构

定义：向量数据库主要用于存储和查询高维向量数据，它将数据对象表示为向量空间中的向量，通过计算向量之间的相似度来进行数据检索和匹配。原理：其核心原理是基于向量空间模型，将文本、图像、音频等各种类型的数据通过特定的算法映射为向量空间中的向量。在存储时，将这些向量按照一定的结构和索引方式存储在数据库中。查询时，将用户输入的查询数据也转换为向量，然后通过计算该向量与数据库中存储的向量之间的相似度，如余弦相似度、欧式距离等，来找出与查询向量最相似的向量数据，从而实现高效的检索和匹配。

2025-01-23 15:00:51 845

原创【智能体系统AgentOS】核心一：基础模型

定义：LLM是一种具有大量参数的语言模型，通常基于Transformer架构，能够学习和理解自然语言的语法、语义和语用信息，生成自然流畅的文本，并且可以完成各种自然语言处理任务，如文本生成、知识问答、推理计算、阅读理解等。特点大规模参数：拥有海量的参数，这些参数通过在大规模语料上进行无监督或自监督学习，能够捕捉到自然语言中的复杂模式和知识，从而具备强大的语言理解和生成能力。上下文理解。

2025-01-23 14:56:54 746

原创计算机视觉应用

医学图像、遥感图像和文字图像都是以图像的形式来承载和传递信息，但它们在应用场景、成像原理、数据特点和处理方法等方面存在诸多不同，以下是它们的异同点介绍：

2025-01-23 14:41:37 399

原创【认知智能】

认知计算是一种利用计算机系统来模拟人类大脑的思考、学习、推理和决策等认知能力的技术和方法。它不仅仅是简单的数据分析和处理，而是试图理解数据背后的意义、上下文和关联性，以更接近人类思维的方式进行信息处理和知识获取。认知智能是指机器具备理解、思考、推理、学习以及与人类进行自然交互的能力，能够像人类一样对复杂的信息进行感知、理解、分析、判断，并做出合理决策和反馈，使机器从“能听会说、能看会认”的感知智能阶段，迈向“能理解、会思考”的更高层次智能阶段。

2025-01-23 14:39:44 757

原创【认知智能】多模态认知计算

多模态认知计算是指一种人工智能技术，它能够处理和理解来自多种不同感知渠道（或模式）的信息。这些模式可以包括文本、图像、声音、视频等。通过结合多个数据源，多模态认知系统旨在模仿人类大脑处理信息的方式，因为人脑在理解和解释世界时通常会同时利用视觉、听觉等多种感官输入。

2024-10-26 11:16:58 1177

原创【认知智能】编译器2

ISA定义：Instruction Set Architecture（指令集架构） - 在计算机科学中，ISA 定义了计算机硬件的语言，即处理器理解和执行的机器语言指令的集合。它定义了二进制代码（例如库或可执行文件）如何在特定平台上与其它二进制代码交互，包括数据类型的大小、函数调用约定、系统调用编号、以及目标文件的格式等。与通用编程语言（如 Python、Java 或 C++）相比，DSL 专注于一个更小的应用范围，因此可以提供更加简洁和直观的语法来表达该领域的概念和操作。

2024-10-24 20:20:40 384

原创【认知智能】编译器1

一些知名的开源项目如 TVM (Tensor Virtual Machine), XLA (Accelerated Linear Algebra) by TensorFlow&JAX, ONNX Runtime 等都是基于这样的架构构建起来的，各自有着独特的优势和技术特点。开发这样一个系统面临的主要挑战之一是如何有效地跨越不同的抽象层次——从高层级的算法描述到底层级的硬件特性利用，同时保持良好的可移植性和效率。此外，随着新硬件架构不断出现，保持对最新技术的支持也是一个持续的过程。

2024-10-24 20:14:18 565

原创【目标检测2024】DetCLIP

在中医药信息化发展方面，CLIP也有一些潜在的应用场景值得我们探索，例如CLIP模型可以用于识别中药材的图像，通过学习大量的中药材图像和对应的文本描述，模型能够识别和分类不同的中药材；此外，在训练过程中，CLIP采用了对比损失函数，包括对比损失（通过最大化正确图像-文本对的相似性和最小化错误图像-文本对的相似性来训练模型）和分类损失（用于训练模型对图像和文本进行多任务分类），这是对称的，意味着对于每个图像-文本对，模型会计算两个方向的损失：图像到文本和文本到图像。CLIP的工作原理可以概括为“对比学习”。

2024-10-22 18:57:54 1512

原创通用大模型应用研究七：RAGOS

RAG，即检索增强生成（Retrieval-Augmented Generation），是一种结合了信息检索和大型语言模型（LLM）提示的技术。它通过从数据源检索相关信息，并将检索到的信息与问题一起注入到LLM提示中，从而生成准确的回答。这种方法特别适用于解决大型语言模型在特定领域知识更新和准确性方面的问题。RAG技术的发展经历了几个阶段，从基础的Naive RAG到高级的Advanced RAG，再到模块化的Modular RAG。

2024-10-22 17:07:08 506

原创通用大模型应用研究六：AgentOS

然而，与人类不同的是，智能体缺乏物理世界的直接互动能力、人类的记忆能力以及规划思考能力。大型语言模型智能体操作系统是一种创新的操作系统，旨在解决资源分配、上下文维护和异构代理集成的挑战。该系统将大型语言模型（LLM）嵌入到操作系统中，作为操作系统的大脑，从而优化了操作系统的功能。短期记忆涉及执行任务过程中的上下文信息，这些信息在子任务执行过程中产生和暂存，任务完成后被清空。智能体可以是任何具有感知、推理和行动能力的系统，比如人工智能、机器人或者软件代理。智能体操作系统，是一种多模态协通的智能体系统。

2024-08-26 15:19:43 854

原创通用大模型推理研究：SGLang推理框架

SGLang: Efficient Execution of Structured Language Model Programs，由斯坦福大学、加州大学伯克利分校、上海交通大学、德克萨斯大学完成。

2024-07-30 17:05:22 2824

原创开源大模型王者归来：llama3最大4000亿参数，性能GPT4相当，超越Grok3140亿且全开源代码

grok，llama3

2024-04-23 17:33:46 895

原创通用大模型应用研究五：model services

大模型部署

2024-04-20 10:45:59 1044

原创通用大模型研究重点之五：llama family

llama3、moe、grok

2024-04-20 09:40:20 1357

原创通用大模型研究重点之四：backbone model

语言模型

2024-03-20 12:51:00 316

原创通用大模型研究重点之三：model App

当然，现在有一些更先进的模型，比如 BERT，GPT 等，它们生成的是上下文相关的词嵌入，即词的嵌入会根据上下文变化，这样一定程度上弥补了传统词嵌入模型的不足。Word Embedding：词嵌入通常被用来生成词的向量表示，这个过程通常是静态的，即一旦训练完成，每个词的向量表示就确定了。然而，词嵌入并不能理解上下文信息，即相同的词在不同的上下文中可能有不同的含义，但词嵌入无法区分这些含义。更好的理解和利用上下文信息：例如，动态的、可变长度的上下文，以及更复杂的上下文结构。

2024-03-12 11:51:36 797

原创 2024年目标检测研究进展

目标检测、yolov9、RT-DERT

2024-03-10 09:16:13 4552

原创通用大模型研究重点之二：model history

十年前，上面的这篇文章算是为自然语言领域的RNN和Attention奠定了基础，BiRNN1997年，RNN encoder-decoder2014年分别为该论文奠定了基础，在这篇论文中详细阐述了通过软注意力解决对齐问题，也就是硬注意力和软注意力的一个区别，主要作用在隐含层得分问题上的基础研究。大佬之所以是大佬是能对一个现象级问题进行抽象并建模分析，同时先通过定性后定量实现系统性研究，下图是当时大佬们在这项研究中的核心工作。

2024-01-24 19:13:12 628

原创通用大模型研究重点之一：data embedding

在过去的传统机器学习中，通常我们是直接处理同一类型的数字类型数据。随着深度学习发展，在图像，文本，语音领域分别取得了超越平均人类水平后，多模态数据的量随着互联网技术指数性增长，近两年自媒体更是推动了多模态数据处理的发展。那么怎么更加高效的处理不同结构类型并且数量巨大的数据，经过我对《复杂》《规模》《模型思维》等深度的研究，得出如下结论：（1）场景业务问题抽象成业务模型，这个在很多咨询公司流行（简称：业务问题符号化）（2）针对抽象问题得到的业务模型和既定的目标探索建模方法（简称：符号问题数字化）

2024-01-22 17:06:32 1152

原创浅谈对“科学，技术，工程”的个人理解及总结我和我的错

战略坚定，战术灵活，完成既定目标；科学的本质是探索并发现，它的结果是发现自然，社会，思维存在的客观规律，这个过程其实是比较唯心，个别人有天赋的人能通过思考去将这种唯心过程发现的客观规律表示成唯物定论，这种定论是成体系的，可延续的，这个过程就是科学研究。查理*芒格说过一句话我也是今年反思总结深有感悟：‘当你有疑问时，要学会利用聪明人丰富的知识和经验’，这句话验证了俗语‘狐狸和蝉’的寓言，智慧的人从别人的错误中学到教训和经验，聪明的人从自身出发学会教训和经验，愚蠢的人对人性和社会的感知及教训和经验毫无感知。

2023-12-22 12:52:47 586

原创深度学习十年感悟，从入门到放弃

个人发展

2023-11-15 10:14:06 356

原创从预训练模型到大模型及多模态智能体研究简述

LLM，生成式模型，预训练模型

2023-11-14 09:38:09 277

原创认知智能最新研究成果

预训练模型，大模型，生成式大模型，思维链，思维图，可解释深度学习，因果深度学习

2023-10-04 10:19:18 969

原创图像生成式大模型领域研究

生成式大模型，通用人工智能

2023-08-25 21:18:37 220

原创 2023年近期阅读有价值的论文

预训练模型，生成式深度学习，通用人工智能，芯片加速器设计

2023-08-25 09:33:52 139

原创 2023年目标检测研究进展

1：本文主要总结近两年的部分目标检测成果2：本文通过这些研究给出学派发展方向参考3：本文针对理论基础研究进行探索性的分析4：个人目前相关工作内容的一些基本的介绍（命名实体识别，文献情报分析，摘要内容生成，亚像素图像处理，超分辨图像处理，编码器，解码器，生成器，判别器，基于加瓦罗定理与海涅定理的认知计算理论研究，基于多模态可编程异构的下一代芯片设计，互联式实时芯片操作系统）

2023-08-20 17:03:46 7582

原创 2023年深度学习最新研究成果

2023年通用人工智能及芯片开发研究

2023-08-09 09:57:27 413

资源MIT发布的10大自然语言处理数据集和语料库

2017-07-11

模式识别基础

模式识别与模态融合与耦合学习基础，图像和语音及语义分割基础

2018-10-17

ObsPyTutorial（obspy库使用说明）

ObsPyTutorial

2017-07-06

Deep Learning in Radiology: Recent Advances, Challenges and Future Trends

2017-07-06

迁移学习手册

基于深度实现自己模型的优化和压缩达到项目符合应用场景的工具手册

2018-10-17

shell脚本大全

linux环境下使用shell脚本编程的资料，目前在Windows下也可使使用，windows商店有Linux

2017-11-03

python迁移学习

python迁移学习实战通过讲述构建原则解决问题和实现复杂情况来实现工程

2018-10-21

武汉大学本科Latex论文写作模板

关于学习使用latex资源的本科写作教程，通过模板学习使用latex的写作

2017-10-02

深度学习matlab代码

hinton论文代码注解 Matlab示例代码为两部分，分别对应不同的论文： 1. Reducing the Dimensionality of data with neural networks 　　ministdeepauto.m backprop.m rbmhidlinear.m 2. A fast learing algorithm for deep belief net 　　mnistclassify.m 　　backpropclassfy.m

2017-10-10

obspy-1.0.1-py35

obspy-1.0.1-py35库

2017-07-06

fashionAI属性识别

本来我主要介绍了标记技术和属性识别的相关检测技术和方案

2018-03-10

机器学习tensorflow安装插件

vc_redist

2017-07-06

c++学习课程讲义

c++课件

2017-07-09

算法导论参考答案

此课件是学习相关算法算法导论的辅助材料，便于深一步研究算法和编码之间的规律和编译环境的文档，是提高代码质量和优化的基础。

2017-09-03

机器人学基础

机器学习与机器人学基础资料，主要为人工智能物理层设计

2018-04-25

感知机识别数字代码

使用感知器的分类方案和SVM的过滤技术从模式识别学习深度学习算法

2017-10-02

深度学习作业

基于深度学习基础总结的基础算法题目综述和笔记总结便于学习

2018-10-17

tensorflow编码教程

本书为2018版tensflow编程教程基础使用，从项目实际出发学习张量流计算图架构

2018-03-10

计算机视觉中的数学方法

主要从数学角度分析描述计算机视觉及其研究特点通过理解理论去获得创新

2018-10-21

C语言版数据结构与算法分析

数据结构与算法分析学习基础，机器学习编码练习工具资料

2018-04-25

LaneNet训练自己教程

车道线分割模型模型训练自己的数据该模型是属于二分类语义分割

2019-03-06

谷歌大脑的近期进展

本文主要介绍谷歌大脑的整体架构和研究思路及相关研究的进展和技术细节。

2018-12-30

Docker 中文教程

大数据分布式计算基础，Docker分布式集群架构学习材料

2019-03-14

VS2019+OpenCV4.1.0教程.pdf

本文主要是使用C++环境调用模型权重文件而需要的开发环境搭建，

2019-07-02

BAT科技公司前后端面试宝典

阿里面试宝典资料，面试目标面试基本问题技术细节问题如何拿到offer

2023-08-09

如何读好一篇论文；how to read paper

学术论文写作，技术文档写作，日常笔记写作，工程实验日记，科研工作感悟。

2022-11-28

目标检测标注工具labelImg

xml数据集标注工具window版本直接下载使用标注工具，方便自己设计数据集

2019-03-18

K210_Sipeed Maix Dock教程文档pro.pdf

K210_Sipeed Maix Dock教程文档pro.pdfz主要是基于k210的芯片实现人脸关键点监测

2020-08-31

Miniforge-pypy3-Linux-aarch64.sh

在ARM A53的飞凌开发板上搭建深度学习，该环境类似anaconda一样实现包管理器。 python在ARM环境变量配置包管理器

2020-07-20

gcc-10.1.0 .tar.gz

C++编译gcc系统升级，源码升级核心编译实现最新版本。This page is a "brief" summary of some of the huge number of improvements in GCC 10. You may also want to check out our Porting to GCC 10 page and the full GCC documentation.

2020-05-19