- 博客(294)
- 资源 (1)
- 收藏
- 关注
原创 GRPO-Group Relative Policy Optimization
GRPO-Group Relative Policy Optimization
2025-02-22 10:46:44
242
原创 DeepSeek-R1
本文根据2025年《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 》翻译总结的。可见和强化学习有关。介绍两个模型,和。
2025-02-15 21:44:23
692
原创 DeepSeek-V3 技术报告
为了减少开源模型与闭源模型的能力差距,我们提出了DeepSeek-V3,一个大的混合专家模型(),有6710亿参数,每个token会激活370亿参数。DeepSeek-V3采用多头隐注意力(Multi-head)提升预测效率,和节省训练成本。此外还采用了两个策略,1)策略进行负载平衡;2)采用了multi-token prediction(MTP)训练目标,增强整体表现。为了进行高效的训练,我们采用了FP8混合精度训练;同时设计了DualPipe 算法进行并行;
2025-02-12 18:03:22
819
原创 人形机器人汇总
第3版Atlas采用电源供电和液压驱动。头上的激光雷达定位器和立体摄像机可以使Atlas规避障碍物、探测地面状况以及完成巡航任务。
2023-07-06 23:09:29
1342
翻译 OpenPose-人体姿态估计
本文根据2019年5月《OpenPose: Realtime Multi-Person 2D PoseEstimation using Part Affifinity Fields》翻译总结。不过openpose在2017年就发了。这个是更新版。人体姿态估计面临多种挑战:1)每张图片可能包含未知数量的人,他们出现在不同的未知,也不同的大小尺度;2)人体之间的交互,如接触,产生了复杂的空间预测;3)预测时间随着人的数量增加,增加了在实时场景预测的难度。
2023-07-06 17:18:39
744
原创 自制小强机器人,能看能听能说能画
这个在上面版本基础上增加了图像显示系统、图像识别、手势识别、图像生成。所以硬件增加了显示屏、摄像头。B站视频:【给小强机器人增加了眼睛(深度相机),能看能听能说能画了-哔哩哔哩】
2023-07-05 11:54:39
482
原创 YOLO系列v1-v8
YOLO是Region-free方法,只需要一次扫描,也被称为(1-stage)模型。而Region-based方法方法,如mask-rcnn ,被称为(2-stage)方法。YOLOv1-v3是原作者,v4和v7是一个作者。v5和v8是一个作者,但其缺少论文。
2023-07-03 16:18:40
1248
原创 Jetson安装Anaconda(miniforge3)
miniforge集成了Anaconda的核心工具:conda。conda是一个包和环境管理工具。因此,我下载anaconda安装时报下面错误illegal instruction(core dumped),没安装成功,故安装miniforge了。据说anaconda还没完全支持arm芯片架构。
2023-06-24 19:08:46
2164
翻译 VQGAN图像生成(离散化加对抗训练)
我们显示了1)如何使用CNN学习了一个图像成分的语义丰富的词汇表,这部分也就是VQGAN;2)利用transformer在高分辨率图像中有效地对其组成(VQGAN压缩过的图片码书表示)进行建模。整体模型也就如下图,包括两部分,VQGAN和transformer。VQGAN先进行图片的压缩,然后输入到transformer。
2023-06-19 16:18:12
1780
翻译 Muse:采用mask transformer的图像生成模型
本文根据google research 团队2023年1月的《Muse: Text-To-Image Generation via Masked Generative Transformers 》翻译总结的。图像生成有GAN、扩散(diffusion)、自回归模型等,而Muse采用mask图像的建模方法,非扩散、非自回归。给定从预训练大预言模型(LLM)中提取的文本embedding,Muse是被训练来预测随机mask的图像token。
2023-06-09 17:21:05
1861
原创 Python 图形用户界面(GUI)框架有哪些
Tkinter 是 Python 的标准 GUI 库。Python 使用 Tkinter 可以快速的创建 GUI 应用程序。轻量级的跨平台图形用户界面(GUI)开发工具。由于、只要安装好 Python 之后就能 import Tkinter 库、而且 IDLE 也是用 Tkinter 编写而成、对于简单的图形界面 Tkinter 还是能应付自如。Button按钮控件;在程序中显示按钮。Canvas画布控件;显示图形元素如线条或文本多选框控件;用于在程序中提供多项选择框Entry输入控件;
2023-06-08 11:45:59
1273
原创 自己制作智能语音机器人(基于jetson nano)
主要采用jetson上编写python代码实现,支持离线语音唤醒、在线语音识别、大模型智能文档、在线语音合成。
2023-06-08 09:12:52
6658
8
原创 3D打印机分类汇总
当今市面上应用比较多的3D打印机是SLS、SLA、DLP、FDM四种3D打印机,按照用途可分为两类:一类是高精度工业打印机,比如SLA、DLP、SLS;一类是以FDM、SLA(用于工业打印机更多)为主的桌面级3D打印机.工业级3D打印机一般比较大,可以打印的物体也是偏大的,一般用于工业产品的制造,如打印一些零部件和模具。桌面级3D打印机一般比较小,就像普通的打印机一样可以直接放置在桌面上打印物体。更多地应用于日常生活之中,如打印一些小零件或者小玩具。
2023-06-05 17:34:24
3556
翻译 百度UNIMO模型--统一模态理解、跨模态对比学习
我们提出了UNIMO(UNIfied-MOdal ),可以同时使用单模态数据和多模态数据,在理解和生成任务。
2023-05-25 17:28:40
793
翻译 扩散模型(2015年)
本文根据2015年5月的《deep unsupervised learning using nonequilibrium thermodynamics》翻译总结的。本文应该是最早提出扩散模型的文章,然后2020年DDPM对其进行了改进,使得扩散模型大火。时间跨度了5年啊。概率模型一般要在两个冲突的目标间权衡:可追溯(tractability)和灵活性(flexibility)。当模型是可追溯时,其可以被分析评估并容易匹配到数据;但是这些模型不能恰当的描述丰富的数据结构。
2023-05-21 23:11:05
2019
原创 视频理解AI模型分类与汇总
人工智能领域视频模型大体也经历了从传统手工特征,到卷积神经网络、3D卷积网络、双流网络、transformer的发展脉络。
2023-05-12 17:29:25
3475
翻译 语音唤醒工具:WeKWS
WeKWS是一个可以投入生产使用、容易构建、易应用的端到端(end-to-end (E2E) )关键词识别工具(Keyword spotting )。Keyword spotting(KWS)指从连续语音流中识别预定义的关键词。唤醒词识别(wake-up word(WuW))是KWS的一种。
2023-04-29 11:31:48
2735
翻译 UNIFORMER-视频模型(3D CNN和transformer结合)
Unifified transFormer (UniFormer) ,集成了3D卷积和transformer,在计算量和准确度之间取得了较好的平衡
2023-04-24 17:35:57
1618
1
翻译 stable diffusion(LDM)--图片生成模型
我们模型latent diffusion models (LDMs)是两阶段的。第一部分就是下面左半部分(红色),对图片进行压缩,将图片压缩为隐变量表示(latent),这样可以减少计算复杂度;第二部分还是扩散模型(diffusion与denoising),中间绿色部分。此外引入了cross-attention机制,下图右半部分,方便文本或者图片草稿图等对扩散模型进行施加影响,从而生成我们想要的图片,比如根据文本生成我们想要的图片。
2023-04-20 16:41:55
5837
原创 各种文字生成图片的AIGC模型(openAI、谷歌、stable、Midjourney等)
ERNIE-ViLG , DALL-E ,Cogview , Make-A-Scene , and Parti 、LDM , DALL-E 2 , Imagen等
2023-04-14 23:25:42
11739
原创 linux上ROS 2.0 安装
机器人操作系统,Robot Operating System,简称为ROS。在2022年5月底,迎来了ROS2第一个长期支持版
2023-04-10 21:04:12
826
原创 DALL·E:OpenAI第一代文本生成图片模型
本文根据openAI 2021年2月的《》翻译总结的。原文详见。DALL-E : 论文中没看到这个名字,可能是后起的吧。DALL-E有120亿参数,基于自回归transformer,在2.5亿 图片-文本对上训练的。在人为评价中,90%的时间认为该模型好于以前的模型。DALL-E还没有使用扩散模型使用的dVAE(discrete variational autoencoder离散变分自动编码器)。文中主要和GAN相关模型进行比较,如AttnGAN、DM-GAN、DF-GAM.
2023-04-07 21:58:40
2671
翻译 ERNIE-ViLG 2.0:百度文心一言文本生成图像模型
ERNIE-ViLG 2.0是一个大规模中文-图片扩散模型,百度论文中说该模型是中文该领域内第一个
2023-04-04 22:37:08
3295
2
原创 GPT-4 介绍
本文根据openAI的2023年3月的《GPT-4 Technical Report 》翻译总结的。原文确实没有GPT-4 具体的模型结构,openAI向盈利组织、非公开方向发展了。也没透露硬件、训练成本、训练数据、训练方法等。不过也透露了一些思想,比如提出了根据模型小的时候,预测模型大的时候的表现。GPT-4开始多模态了,支持图片和文本输入,输出文本。GPT-4模型还是沿用AR模型的思路,transformer模型,在一个文档中预测下一个token。
2023-03-27 21:42:59
5417
12
原创 GTP科普——简单入门资料
入门与了解GPT,包括GPT模型的训练目标函数、模型的基本结构,以及模型基本结构中的文本输入层、多头注意力层、前馈层等
2023-03-27 15:37:33
5027
原创 强化学习的入门
强化学习分为三类,分别为基于价值(Value-Based)的强化学习、基于策略(Policy-Based)的强化学习、演员-评论家(Actor-Critic)强化学习
2023-03-27 15:23:10
1526
翻译 Codex--GPT的写代码版本
文中提出了3个模型,一个是基于GPT-3在代码上微调来通过文本描述生成代码的Codex模型(非监督学习);一个是进行监督训练,通过文本描述生成代码的Codex-S模型;一个是通过代码生成代码文本描述的Codex-D模型。
2023-03-26 18:44:15
1414
原创 tensorflow lite简介-移动设备端机器学习
TensorFlow Lite 是一组工具,可帮助开发者在移动设备、嵌入式设备和 loT 设备上运行模型,以便实现设备端机器学习。
2023-03-03 16:59:17
2126
原创 梯度下降优化器:SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam -> AdamW
梯度下降优化器:SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam -> AdamW
2023-02-24 17:17:14
2962
翻译 Next-ViT: Next Generation Vision Transformer
ResNet倾向于捕获高频信号,而对低频信号较困难。ViT(Swin)倾向于捕获低频信号,忽略高频信号。而Next-ViT同时捕获高低频
2023-02-17 17:45:39
598
原创 几种最小二乘法及python代码:ELS、TLS、RLS
增广最小二乘法Extended Least Squares method、总体最小二乘法Total Least Squares method、递推/递归最小二乘法Recursive Least Squares method、加权最小二乘法
2023-01-29 17:34:38
4641
dicomutil.py
2020-08-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人