Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers

发表时间:NeurIPS 2024

论文链接:https://readpaper.com/pdf-annotate/note?pdfId=2517084963921814272&noteId=2519032879246930432

作者单位:MIT CSAIL(Kaiming开始做具身了)

Motivation:Previous robot learning methods often collect data to train with one specific embodiment for one task(不够通用), which is expensive and prone to overfitting.

解决方法This work studies the problem of learning policy representations through heterogeneous pretraining on robot data across different embodiments and tasks at scale.

实现方式提出Heterogeneous Pre-trained Transformers (HPT), which pre-train a large, shareable trunk of a policy neural network to learn a task and embodim

### 关于DeepSeek 扩展开源语言模型及其长期主义方法 #### DeepSeek LLM 的架构扩展策略 DeepSeek LLM 通过增加网络层数来实现模型规模的扩大。对于较小版本如 DeepSeek LLM 7B,采用了30层结构;而对于较大版本如 DeepSeek LLM 67B,则增加了至95层[^2]。这种分层次的设计不仅有助于维持与其他开源模型的一致性,同时也支持更有效的并行计算和分布式处理。 #### 长期发展视角下的技术贡献 为了推动大型语言模型领域内的持续进步和技术共享,DeepSeek 发布了一个名为 DeepSeek-V2-Lite 的轻量化版本模型,该模型拥有15.7亿参数量,并且每个token激活约2.4亿参数[^4]。这一举措旨在降低参与门槛,鼓励更多研究人员参与到基于多专家混合(MoE) 和自适应局部注意(Adaptive Local Attention, MLA)机制的研究工作中去。 #### 开放生态系统的建设 除了提供不同尺寸大小的语言模型外,DeepSeek 还致力于构建一个开放包容的技术生态系统。这包括但不限于发布详细的文档说明、分享最佳实践案例以及积极参与社区交流活动等措施。这样的做法能够吸引更多开发者加入到这个充满活力的群体当中,共同探索未知领域,解决实际应用中的挑战。 ```python # Python 示例代码展示如何加载预训练好的 DeepSeek 模型 from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "deepseek-llm" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) text = "Once upon a time," input_ids = tokenizer.encode(text, return_tensors='pt') output = model.generate(input_ids, max_length=50) print(tokenizer.decode(output[0], skip_special_tokens=True)) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

KKdlg

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值