- 博客(6)
- 资源 (19)
- 收藏
- 关注
原创 大语言模型--智能的图形界面Agent,研究与应用综述(未完待续)
图形用户界面(GUI)长期以来一直是人机交互的核心,提供了一种直观和视觉驱动的方式来访问数字系统并与之交互。传统上,自动化GUI交互依赖于基于脚本或基于规则的方法,这些方法虽然对固定的工作流程有效,但缺乏动态、现实世界应用程序所需的灵活性和适应性。大型语言模型(LLM)的出现,特别是多模态模型的出现,开创了GUI自动化的新时代。他们在自然语言理解、代码生成、任务泛化和视觉处理方面表现出了卓越的能力。
2024-12-24 17:22:14
834
原创 大模型智能体操作系统(AIOS: LLM Agent Operating System)
本文提出了AIOS,一种LLM智能体操作系统,它将大型语言模型作为操作系统的大脑嵌入到操作系统中,使操作系统“有灵魂”——这是迈向AGI的重要一步。
2024-03-27 10:48:48
2472
原创 智能体AI(Agent AI),多模态交互(MultiModal Interaction), 现阶段综述及未来展望
这里介绍了Agent AI系统的总体概况,该系统可以在许多不同的领域和应用中感知和行动,可能是使用Agent范式实现AGI的途径。
2024-03-25 10:17:38
3330
1
原创 近期语音合成论文总结
与广泛报道的大型语言模型在不断增加的数据量上训练时的“涌现能力”相呼应,我们发现,使用10K+小时和500M+参数构建的BASE TTS变体开始在文本复杂的句子上表现出自然的韵律。语音标记器的总体架构如图2所示。虽然L1不是最佳重建目标,但我们优先考虑有利于自回归建模的表示[45],并在第2.4节中相应地证明,当用我们的语音编码解码器解码该学习的表示时,可以保持高的最终音频质量。为此,我们引入了一种基于从预训练的WavLM模型[39]中提取的特征的语音标记器,该模型进一步训练了有助于解开说话者身份的损失。
2024-03-21 11:25:15
1588
1
c++检查内存泄露软件 Visual Leak Detector(包含多个版本及源代码)
2010-01-23
Convex Optimization book (pdf)
2009-04-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人