- 博客(55)
- 收藏
- 关注
原创 大语言模型教程与实践(开源)
大语言模型(Large Language Models, LLMs)的兴起确实始于OpenAI在2018年发布的GPT(Generative Pre-trained Transformer),这一开创性工作引领了自然语言处理领域的新纪元。随后,2022年底ChatGPT的横空出世,进一步加速了大语言模型技术的应用普及,它不仅展示了惊人的生成能力和理解深度,还极大地推动了人工智能技术的社会认知与应用边界。对于技术开发者而言,想要深入学习大语言模型技术,确实需要掌握一系列复杂而深奥的知识体系。
2024-05-04 00:37:24
1177
原创 Sora技术原理解析
Sora是一个基于大规模训练的文本控制视频生成扩散模型。Sora能够生成高达1分钟的高清视频,涵盖广泛的视觉数据类型和分辨率。Sora使用简单的文本描述,使得视频创作变得前所未有的简单和高效。
2024-02-29 23:05:18
1572
1
原创 大型语言模型的幻觉问题
在语言模型的背景下,幻觉指的是一本正经的胡说八道:看似流畅自然的表述,实则不符合事实或者是错误的。幻觉现象的存在严重影响LLM应用的可靠性,本文将探讨大型语言模型(LLMs)的幻觉问题,以及解决幻觉现象的一些常见方法。
2024-01-06 22:29:59
2173
原创 RAG(检索增强生成)技术
检索增强 LLM ( Retrieval Augmented LLM ),给 LLM 提供外部数据库,对于用户问题 ( Query ),通过一些信息检索 ( Information Retrieval, IR ) 的技术,先从外部数据库中检索出和用户问题相关的信息,然后让 LLM 结合这些相关信息来生成结果
2023-12-19 09:55:37
2540
原创 LLaMA系列模型
2023年2月,Meta(原Facebook)推出了LLaMA大模型,在相关评测任务上的效果可以媲美甚至超过千亿级大模型,被认为是近期开源大模型百花⻬放的开端之一,“羊驼”系列模型及其生态快速发展。
2023-12-18 22:55:43
3542
1
翻译 The Annotated Transformer 最新翻译
The Annotated Transformer 最新翻译。Transformer 是第一个完全依赖自注意力来计算其输入和输出表示,而不是使用序列对齐 RNN 或卷积的模型。
2023-05-21 19:43:38
386
原创 Transformer架构解析
Transformer 是第一个完全依赖自注意力来计算其输入和输出表示,而不是使用序列对齐 RNN 或卷积的模型。
2023-05-21 19:31:46
6996
2
原创 ChatGPT相关核心算法
ChatGPT 的卓越表现得益于其背后多项核心算法的支持和配合。本文将分别介绍作为其实现基础的 Transformer 模型、激发出其所蕴含知识的Prompt/Instruction Tuning 算法、其涌现出的思维链能力、以及确保其与人类意图对齐的基于人类反馈的强化学习算法。
2023-03-26 20:59:17
12632
1
原创 Rainbow: 结合深度强化学习的改进
本文研究了DQN算法的六个扩展,并实证研究了它们的组合。我们的实验表明,在数据效率和最终性能方面,该组合在雅达利2600基准上提供了最先进的性能。我们还提供了详细的消融研究结果,该研究显示了每个部件对整体性能的贡献。
2022-11-10 16:23:29
1701
原创 一种简单的蒙特卡洛树搜索并行化方法
本文提出了 WU-UCT, 一种新颖的并行 MCTS 算法, 通过监控未观察样本的数量来解决并行化过程中统计数据过时的问题. 基于新设计的统计数据, 它有正确地修正了UCT节点选择策略, 实现了有效的探索和利用的权衡.
2022-10-29 11:03:49
3184
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人