自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 LLM速览篇【241-270】

这些研究围绕大型语言模型(LLMs)展开,探讨了它们在多个领域的应用和优化方法。例如,LLaMA-Omni通过集成语音技术实现高效的语音交互;研究表明人类对LLMs生成内容的感知存在不足;优化GPU工作负载以提高LLM推理效率;EyeCLIP则专注于多模态眼科图像分析;MoWE-Audio提升音频任务性能;LLM在自动驾驶、代码生成和学术知识组织等领域的应用也得到了探讨。同时,还研究了LLMs在处理否定概念、生成测试场景及优化推荐系统中的表现。

2024-10-31 10:33:29 452

原创 LLM速览篇【211-240】

这些工作涵盖了扩散模型与大语言模型的对齐、情感分析、语言生成、学习优化、跨模态学习及资源管理等多个领域。研究探讨了如何利用大语言模型在情感分析、文本生成和多任务学习中提升性能,提出了新的方法和框架,如通过指令调优和管道并行优化资源利用。此外,还关注了错误信息对知识漂移的影响及其在系统中的应用,推动了AI在教育和设计领域的实践,展现了大语言模型在多个领域的广泛应用潜力。

2024-10-31 10:25:33 816

原创 LLM速览篇【181-210】

这些研究展示了LLMs在中文语音识别、文档编辑、数据科学、安全性与网络防御、医疗与脑信号分析、自动驾驶、教育、文本生成、多模态任务、市场模拟、UI自动化以及多语言推荐系统等领域的广泛应用。LLMs在不同应用场景中展现了其卓越的创新能力和适应性,推动了多个行业的技术发展与应用进步。

2024-10-29 10:40:04 784

原创 LLM速览篇【151-180】

这些研究展示了LLMs在城市设计、人类行为分析、机器人任务规划、开源开发、视觉任务、网络安全、自动驾驶、法律与政策、系统优化以及应用工具开发中的广泛应用。LLMs在不同场景中的应用不断展现出创新能力和适应性,推动了科技的进步与社会问题的解决。

2024-10-29 10:36:10 1004

原创 LLM速览篇【121-150】

这些研究涵盖了从医疗健康、教育与数据素养、多模态任务、机器人与任务规划,到自动语音识别、系统与架构优化等多个方向。LLMs在不同领域中的应用展示了强大的创新能力和适应性,推动了技术发展和实际应用场景的变革。

2024-10-28 11:03:33 1809

原创 LLM速览篇【91-120】

这30篇内容可以发现当前LLMs在各个领域展现了强大的适应性和创新潜力,从医疗、教育、视觉任务到机器人控制、法律与政策、生成式AI、隐私保护和系统优化,LLMs的应用范围正在不断扩大。同时,这些研究也揭示了模型在隐私保护、信心校准、社会价值观对齐等方面仍需改进,未来的研究可以在这些方向上继续深入探索。这30篇关于大型语言模型(LLMs)的最新研究,可以将它们归纳为以下几个主要方向。

2024-10-28 10:59:11 608

原创 Grounded Language-Image Pre-training

本文提出了一种名为GLIP(Grounded Language-Image Pre-Training)的模型,用于学习物体级别、语言感知和语义丰富的视觉表示。GLIP在预训练中统一了对象检测和短语定位任务。该统一带来了两个好处:1)它允许GLIP同时从检测数据和定位数据中学习,从而提升两个任务的性能,并构建出优秀的定位模型;2)GLIP通过生成定位框的自我训练方式,利用大量图像-文本对,使所学习的表示更加语义丰富。

2024-10-24 09:55:33 882

原创 LLM速览篇【61-90】

这些研究论文探索了大型语言模型(LLM)在多个领域中的应用与发展。通过对不同工作方向进行分类,我们可以更清晰地看到LLM在对话系统、文本处理、音视频处理以及系统辅助等方面的最新进展。

2024-10-24 08:58:35 1155

原创 Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

最近,多模态学习在文本生成图像和图像文本对比学习领域取得了显著进展,推动了图像生成和编辑的创新。Imagen模型结合了大型Transformer语言模型和高保真扩散模型,其核心发现是预训练的语言模型(如T5)在仅使用文本数据时依然能有效地进行图像合成。通过新的采样技术,Imagen能在保持高引导权重的同时生成高保真图像,表现远超之前的模型。在COCO数据集上的实验中,Imagen取得了零样本FID-30K分数7.27的优异成绩,并且与其他模型相比,人类评估者更偏向于Imagen生成的样本。

2024-10-23 22:00:05 559

原创 LLM速览篇(31-60)

这30篇论文涵盖了大型语言模型(LLMs)在多个领域的应用和研究,提供了对当前技术进展的全面概述。总体来说,研究集中于以下几个关键主题:推理与推理路径优化:几篇论文探讨了LLMs在复杂推理任务中的表现改进(如DoT框架和SelECT-SQL),通过链式思维、图结构等方法增强推理的逻辑性和精确度。情感与体验:E2Map 和 ExploreSelf 等研究着重于将情感反应和用户体验引入智能体或LLM系统中,从而提高在复杂、动态环境中的适应能力。

2024-10-23 10:47:22 643

原创 LLM速览篇(1-30)

这30篇论文涵盖了大型语言模型(LLM)及相关技术的广泛应用,重点关注加速模型推理、提高代码翻译、推进医疗预测、增强模型的可解释性,以及扩展AI在各个领域的应用。:如和FitPrune等论文介绍了用于加速推理和降低计算成本的方法,针对长上下文LLMs和多模态模型,提出了高效的剪枝和检索策略。和等论文探索了LLMs在增强代码翻译和漏洞检测方面的应用,展示了将大规模代码转化为更安全、可靠语言的进展。DILA和。

2024-10-22 21:36:00 756

原创 Learning Transferable Visual Models From Natural Language Supervision

现有的最先进的计算机视觉系统通常被训练来预测一组固定的预定对象类别。这种受限的监督形式限制了模型的通用性和可用性,因为需要额外的标注数据来指定其他视觉概念。而直接从图像的**原始文本(raw text about images)**中学习是一种有前景的替代方法,它利用了更广泛的监督来源。我们证明了一个简单的预训练任务,即预测哪个图像(image)和哪个描述(caption)匹配,是一种从头开始在一个包含4亿对图像和文本数据的数据集上学习最先进(SOTA)图像表示的有效且可扩展的方法。

2024-10-22 09:30:30 2213

原创 GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models

提出了一种名为GaussianDreamer的文本到3D方法,通过高斯点分布结合了3D和2D扩散模型,兼具3D一致性和丰富的生成细节。引入了噪声点增长和颜色扰动来增强初始化的3D高斯点,从而进一步丰富内容。整体方法简单且有效,可以在15分钟内通过一张GPU生成一个3D对象,并直接进行实时渲染,速度远超以往的方法。Related Works(相关工作)

2024-10-21 10:17:25 1802

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除