AI强仔-优快云博客

翻译 RAG-ANYTHING

以前的RAG主要采用文本，较少考虑多模态。RAG-ANYTHING考虑了图片、表格、公式等多模态，所以叫anything

2025-10-27 10:42:21 72

2022年，Google团队在论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中提出了Chain-of-Thought (CoT)方法，以解决大语言模型在数学、常识和符号推理等任务中的局限性。研究发现，单纯增加模型规模并不能有效提升这些复杂任务的性能。CoT通过修改提示词结构为<input, chain of thought, output>，引导模型生成中间推理步骤，从而增强其推理能力。这种方法通

2025-05-23 09:52:56 320

原创 GRPO-Group Relative Policy Optimization

GRPO-Group Relative Policy Optimization

2025-02-22 10:46:44 535

原创 DeepSeek-R1

本文根据2025年《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 》翻译总结的。可见和强化学习有关。介绍两个模型，和。

2025-02-15 21:44:23 922

原创 DeepSeek-V3 技术报告

为了减少开源模型与闭源模型的能力差距，我们提出了DeepSeek-V3，一个大的混合专家模型（），有6710亿参数，每个token会激活370亿参数。DeepSeek-V3采用多头隐注意力（Multi-head）提升预测效率，和节省训练成本。此外还采用了两个策略，1）策略进行负载平衡；2）采用了multi-token prediction（MTP）训练目标，增强整体表现。为了进行高效的训练，我们采用了FP8混合精度训练；同时设计了DualPipe 算法进行并行；

2025-02-12 18:03:22 1473

原创轮腿机器人的PID控制

红色箭头形成闭环控制，保持平衡并有速度。当静态平衡时，就只需要平衡PID，无需无刷电机和速度PID

2023-08-16 17:25:38 3952

原创轮足机器人硬件总结

本文主要根据“轮腿机器人Hyun”总结的硬件部分。

2023-08-02 16:38:39 4015 1

原创人形机器人汇总

第3版Atlas采用电源供电和液压驱动。头上的激光雷达定位器和立体摄像机可以使Atlas规避障碍物、探测地面状况以及完成巡航任务。

2023-07-06 23:09:29 1514

翻译 OpenPose-人体姿态估计

本文根据2019年5月《OpenPose: Realtime Multi-Person 2D PoseEstimation using Part Affifinity Fields》翻译总结。不过openpose在2017年就发了。这个是更新版。人体姿态估计面临多种挑战：1）每张图片可能包含未知数量的人，他们出现在不同的未知，也不同的大小尺度；2）人体之间的交互，如接触，产生了复杂的空间预测；3）预测时间随着人的数量增加，增加了在实时场景预测的难度。

2023-07-06 17:18:39 954

原创自制小强机器人，能看能听能说能画

这个在上面版本基础上增加了图像显示系统、图像识别、手势识别、图像生成。所以硬件增加了显示屏、摄像头。B站视频：【给小强机器人增加了眼睛（深度相机），能看能听能说能画了-哔哩哔哩】

2023-07-05 11:54:39 594

原创 YOLO系列v1-v8

YOLO是Region-free方法，只需要一次扫描，也被称为（1-stage）模型。而Region-based方法方法，如mask-rcnn ，被称为（2-stage）方法。YOLOv1-v3是原作者，v4和v7是一个作者。v5和v8是一个作者，但其缺少论文。

2023-07-03 16:18:40 1643

原创 Jetson安装Anaconda（miniforge3）

miniforge集成了Anaconda的核心工具：conda。conda是一个包和环境管理工具。因此，我下载anaconda安装时报下面错误illegal instruction（core dumped），没安装成功，故安装miniforge了。据说anaconda还没完全支持arm芯片架构。

2023-06-24 19:08:46 2766

翻译 VQGAN图像生成（离散化加对抗训练）

我们显示了1）如何使用CNN学习了一个图像成分的语义丰富的词汇表,这部分也就是VQGAN；2）利用transformer在高分辨率图像中有效地对其组成（VQGAN压缩过的图片码书表示）进行建模。整体模型也就如下图，包括两部分，VQGAN和transformer。VQGAN先进行图片的压缩，然后输入到transformer。

2023-06-19 16:18:12 1996

翻译 StyleDrop:生成任意风格的图片

StyleDrop可以生成如下18种不同风格的图片

2023-06-14 17:12:24 690

翻译 Muse：采用mask transformer的图像生成模型

本文根据google research 团队2023年1月的《Muse: Text-To-Image Generation via Masked Generative Transformers 》翻译总结的。图像生成有GAN、扩散（diffusion）、自回归模型等，而Muse采用mask图像的建模方法，非扩散、非自回归。给定从预训练大预言模型（LLM）中提取的文本embedding，Muse是被训练来预测随机mask的图像token。

2023-06-09 17:21:05 2200

原创 Python 图形用户界面（GUI）框架有哪些

Tkinter 是 Python 的标准 GUI 库。Python 使用 Tkinter 可以快速的创建 GUI 应用程序。轻量级的跨平台图形用户界面（GUI）开发工具。由于、只要安装好 Python 之后就能 import Tkinter 库、而且 IDLE 也是用 Tkinter 编写而成、对于简单的图形界面 Tkinter 还是能应付自如。Button按钮控件；在程序中显示按钮。Canvas画布控件；显示图形元素如线条或文本多选框控件；用于在程序中提供多项选择框Entry输入控件；

2023-06-08 11:45:59 1454

原创自己制作智能语音机器人（基于jetson nano）

主要采用jetson上编写python代码实现，支持离线语音唤醒、在线语音识别、大模型智能文档、在线语音合成。

2023-06-08 09:12:52 7793 8

原创 3D打印机分类汇总

当今市面上应用比较多的3D打印机是SLS、SLA、DLP、FDM四种3D打印机，按照用途可分为两类：一类是高精度工业打印机，比如SLA、DLP、SLS；一类是以FDM、SLA（用于工业打印机更多）为主的桌面级3D打印机.工业级3D打印机一般比较大，可以打印的物体也是偏大的，一般用于工业产品的制造，如打印一些零部件和模具。桌面级3D打印机一般比较小，就像普通的打印机一样可以直接放置在桌面上打印物体。更多地应用于日常生活之中，如打印一些小零件或者小玩具。

2023-06-05 17:34:24 4963

翻译百度UNIMO模型--统一模态理解、跨模态对比学习

我们提出了UNIMO（UNIfied-MOdal ），可以同时使用单模态数据和多模态数据，在理解和生成任务。

2023-05-25 17:28:40 997

原创似然（likelihood）、极大似然、对数似然、最大后验等

似然（likelihood）、极大似然、对数似然、最大后验等

2023-05-22 11:51:17 3081

翻译扩散模型（2015年）

本文根据2015年5月的《deep unsupervised learning using nonequilibrium thermodynamics》翻译总结的。本文应该是最早提出扩散模型的文章，然后2020年DDPM对其进行了改进，使得扩散模型大火。时间跨度了5年啊。概率模型一般要在两个冲突的目标间权衡：可追溯（tractability）和灵活性（flexibility）。当模型是可追溯时，其可以被分析评估并容易匹配到数据；但是这些模型不能恰当的描述丰富的数据结构。

2023-05-21 23:11:05 2396

原创视频理解AI模型分类与汇总

人工智能领域视频模型大体也经历了从传统手工特征，到卷积神经网络、3D卷积网络、双流网络、transformer的发展脉络。

2023-05-12 17:29:25 4214

翻译语音唤醒工具：WeKWS

WeKWS是一个可以投入生产使用、容易构建、易应用的端到端（end-to-end (E2E) ）关键词识别工具（Keyword spotting ）。Keyword spotting（KWS）指从连续语音流中识别预定义的关键词。唤醒词识别（wake-up word（WuW））是KWS的一种。

2023-04-29 11:31:48 3615

翻译 UNIFORMER-视频模型（3D CNN和transformer结合）

Unifified transFormer (UniFormer) ，集成了3D卷积和transformer，在计算量和准确度之间取得了较好的平衡

2023-04-24 17:35:57 1932 1

翻译 stable diffusion(LDM)--图片生成模型

我们模型latent diffusion models (LDMs)是两阶段的。第一部分就是下面左半部分（红色），对图片进行压缩，将图片压缩为隐变量表示（latent），这样可以减少计算复杂度；第二部分还是扩散模型（diffusion与denoising），中间绿色部分。此外引入了cross-attention机制，下图右半部分，方便文本或者图片草稿图等对扩散模型进行施加影响，从而生成我们想要的图片，比如根据文本生成我们想要的图片。

2023-04-20 16:41:55 6800

原创各种文字生成图片的AIGC模型（openAI、谷歌、stable、Midjourney等）

ERNIE-ViLG , DALL-E ,Cogview , Make-A-Scene , and Parti 、LDM , DALL-E 2 , Imagen等

2023-04-14 23:25:42 14193

原创 linux上ROS 2.0 安装

机器人操作系统，Robot Operating System，简称为ROS。在2022年5月底，迎来了ROS2第一个长期支持版

2023-04-10 21:04:12 1042

原创 DALL·E:OpenAI第一代文本生成图片模型

本文根据openAI 2021年2月的《》翻译总结的。原文详见。DALL-E : 论文中没看到这个名字，可能是后起的吧。DALL-E有120亿参数，基于自回归transformer，在2.5亿图片-文本对上训练的。在人为评价中，90%的时间认为该模型好于以前的模型。DALL-E还没有使用扩散模型使用的dVAE（discrete variational autoencoder离散变分自动编码器）。文中主要和GAN相关模型进行比较，如AttnGAN、DM-GAN、DF-GAM.

2023-04-07 21:58:40 2933

翻译 ERNIE-ViLG 2.0：百度文心一言文本生成图像模型

ERNIE-ViLG 2.0是一个大规模中文-图片扩散模型，百度论文中说该模型是中文该领域内第一个

2023-04-04 22:37:08 3680 2

原创智能机器人硬件汇总

单片机、芯片、arduino、树莓派、Jetson Nano、esp32、stm32

2023-03-28 17:32:43 2075

原创 GPT-4 介绍

本文根据openAI的2023年3月的《GPT-4 Technical Report 》翻译总结的。原文确实没有GPT-4 具体的模型结构，openAI向盈利组织、非公开方向发展了。也没透露硬件、训练成本、训练数据、训练方法等。不过也透露了一些思想，比如提出了根据模型小的时候，预测模型大的时候的表现。GPT-4开始多模态了，支持图片和文本输入，输出文本。GPT-4模型还是沿用AR模型的思路，transformer模型，在一个文档中预测下一个token。

2023-03-27 21:42:59 5614 12