- 博客(7)
- 收藏
- 关注
原创 UniRepLKNet文章翻译
(注:以下翻译仅供学习交流使用,并尊重原作者的一切权益)UniRepLKNet:一种用于音频、视频、点云、时间序列和图像识别的通用感知Large-Kernel ConvNet摘要大核卷积神经网络(ConvNets)最近受到了广泛的研究关注,但有两个尚未解决的关键问题需要进一步的研究。1)现有的大核卷积网的架构在很大程度上遵循了传统的卷积网或变压器的设计原则,而针对大核卷积网的架构设计仍未得到充分解决。2)由于变压器主导了多种模式,convnet是否在视觉之外的领域也具有很强的普遍感知能力仍有
2024-01-03 11:16:08
1909
1
原创 文献翻译:RT-2
注:以下文献仅供学习交流使用,不可用于商业用途,并尊重原作者的一切权益。RT-2:视觉语言动作模型将Web知识转化为机器人控制我们研究了如何将在互联网规模数据上训练的视觉语言模型直接整合到端到端机器人控制中,以促进泛化能力并实现紧急语义推理。我们的目标是使一个单一的端到端训练模型既能学会将机器人对环境观察结果映射到行动中,又能享受到来自网络的语言和视觉语言数据的大规模预训练的好处。为此,我们建议在机器人轨迹数据和互联网规模的视觉语言任务上共同调整以实现最先进的视觉语言模型,如视觉问题回答。与其他方法
2023-12-22 09:37:08
1348
原创 文献翻译:RT-1
注:以下内容仅供交流学习使用,不可用于商业用途,并尊重原作者的一切权益。RT-1:用于现实世界的大规模控制的机器人变压器摘要通过将知识从大型、多样化、任务无关的数据集转移出来,现代机器学习模型可以解决特定的下游任务,以零射击或小的任务特定数据集转换到高水平的性能。虽然这种能力已经在计算机视觉、自然语言处理或语音识别等其他领域得到了证明,但在机器人技术中仍有待证明,由于机器人技术收集真实世界机器人数据的差异,模型的泛化能力尤为关键。我们认为,这种通用机器人模型成功的关键之一在于开放式的与任务无
2023-12-22 09:34:36
1711
原创 论文翻译:A generalist agent
注:以下内容仅供交流学习使用,不可用于商业用途,并尊重原作者的一切权益。英文原文可使用Google Scholar查看。一个通用的模型摘要受大规模语言建模进展的启发,我们应用了一种类似的方法来构建一个在文本输出领域之外的单一多面手代理。代理,我们称之为Gato,是一种多模式、多任务、多体现的多面手策略。具有相同权重的相同网络可以播放雅达利、标题图像、聊天、使用真实的机器人手臂堆栈块等,根据其上下文决定是否输出文本、关节扭矩、按下按钮或其他令牌。在本报告中,我们描述了模型和数据,并记录了Gat
2023-12-22 09:32:19
875
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人