漫谈多模态:从检索推荐,计算机视觉到生命科学 | 百辨太魔人 第6期

点击蓝字

45d71bf8ed96d347a8d85601dcb6febd.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

b3cffed8f2ea4f281ac20039028963de.png

扫码进入小宇宙收听音频

本期百辨太魔人

王辉,AI4Science 算法工程师

朱浩崴,清华大学软件工程博士生

冯张驰,北京航空航天大学硕士生

俞笛,清华大学深圳国际研究生院硕士生

本期干货文字稿由太魔人王辉整理撰写

正如Isaac Asimov在《I, Robot》中描述的那样,未来的机器人不仅会处理各种信息,还会探索自我意志。达到这一目标,多模态大模型显得尤为关键。多模态大模型涉及处理并整合来自多个不同数据源(如文本、图像、声音等)的信息,以达到更全面的理解和决策能力。近年来,像Google的Gemini模型和OpenAI的GPT-4这样的大模型,通过其多模态能力,展现了处理复杂、综合信息的潜力。

随着技术的进步,我们可以预见多模态的革命即将到来,它可能在2024年达到新的高潮。这种进步不仅将推动AI在各个领域的应用,也可能为我们提供全新的方式来理解和与智能系统互动。第六期百辨太魔人从检索推荐、计算机视觉、生命科学三个方面出发,不仅分享了多模态在不同领域面临的挑战,还展示了一系列创新的思考和创意,畅聊多模态大模型未来的无限可能性。

01

  检索推荐中的多模态  

在不同的检索推荐应用场景中,使用的数据源也各不相同。例如,搜索引擎主要依赖文本数据,图像搜索引擎处理图像数据,而视频检索系统则结合了文本、图像和音频等多种模态。视频文件本身就是一个多模态的数据集合,通常包含标题、封面、封面文字、视频内容帧和音频等元素,涵盖了多种信息类型。

在这样的背景下,多模态数据的应用看似正在重新定义检索推荐行业的未来。学术界倾向于强调不同模态之间的融合,代表性的例子如Google的Gemini模型,能够处理音频、文本和图像输入。与此相对,工业界更注重响应速度,如Google搜索引擎会特别显示每次搜索所需的时间。在这种情况下,生成式检索模式开始兴起,它与传统的索引、召回和重排搜索范式不同,提供了更快的响应和多模态功能,诸如Perplexity等新兴公司便是这一趋势的代表。

92aedf3416417c20f0b769effa972225.jpeg

然而,生成式检索并非没有挑战。它面临着难以解决的“幻觉”问题和知识更新难题,这些问题的存在挑战了其可靠性和实用性。为了应对这些挑战,研究人员正在积极探索不同的解决方案,如检索增强生成模型(RAG),旨在提升生成式检索系统的准确性和可靠性。

总之,随着技术的进步和行业需求的不断变化,从学术到工业的多模态大模型应用已逐步达成一个共识:未来的检索推荐系统将更加重视交互式和多模态的整合,强化个性化推荐的精准度,同时也将重点发展在信息的整理和归纳总结上。这些系统将更深入地询问和理解用户的具体需求,结合用户的个人背景和偏好进行内容推荐,并有效整合来自多种模态的数据,以提供一个综合而全面的输出。随着这些技术的成熟和实现,我们预期在不远的将来,这种高度智能化和定制化的服务将成为可能。

02

  计算机视觉中的多模态  

计算机视觉是一种以图像作为主要数据源的技术,它辅以其他模态信息来更全面地理解物理世界。在这个领域中,图像通常提供比文本更丰富的语义信息,这一特性基于一个简单的原则:所见即所得。

在图像生成技术的发展历程中,我们见证了从早期生成对抗网络(GANs)到最近的基于CLIP和Diffusion模型的进步。早期的GANs面临许多挑战,如训练不稳定性和模式坍塌,限制了它们生成图像的多样性和质量。相比之下,近年来基于CLIP和Diffusion的模型已经能够利用文本提示来生成高质量且 具体主题的图像,显示出较好的生成效果。

计算机视觉领域的进步在很大程度上得益于大规模高质量图像数据集的开发。例如,著名的ImageNet数据集包含了1400万张图像,Google的Open Images数据集含有数百万张图像,而COCO数据集拥有超过200万个标注实例。这些数据集不仅提供了单独的图片,还经常包括视频数据,这可以被视为连续的图像帧,有助于模型学习图像间的动态物理关系。例如,Google的Gemini模型使用了YouTube上的视频内容进行训练,以增强模型处理视频信息的能力。

8fb65900d4164b01dce169130b16bd4b.jpeg

随着数据规模的增长和预训练技术的进步,生成的图像越来越逼真,模型的语义理解能力也在不断增强。为了进一步提升这些模型的性能,需要对数据进行更细致的标注,同时通过强化训练方法,如强化学习,使模型不仅能生成图像,还能理解和响应图像内容中的复杂和抽象概念。这种深层次的语义理解是未来计算机视觉技术发展的关键方向,预计将在自动驾驶、医学图像分析等应用中发挥重要作用。

03

  生命健康中的多模态  

在生命科学领域,计算机视觉与宏观物理世界的细致描绘不同,生命健康研究更多地聚焦于微观生命过程的理解,包括基因组学和蛋白质组学等子领域。这些研究通常分为两大主要分支:分子生物学和生物医学。

(1) 分子生物学的进展

分子生物学的重大突破得益于基因组测序技术的飞速发展,这使得获取大量分子数据成为可能。例如,  2007年进行一次全基因组测序的成本高达数百万美元,而如今这一费用已经降至不足100美元。这种成 本的显著降低促进了大规模的生物分子数据集的累积,从而极大地丰富了我们对生命分子的理解。例如,Meta在2020年发布的ESM-1b蛋白质语言模型,基于数千万蛋白质序列的数据建立,而DeepMind 在2021年推出的AlphaFold2模型,更是以其原子级的精确度在蛋白质结构预测领域取得了革命性的进展。此外,Generate Biomedicines的Chrama模型示范了如何根据人类指令生成具有特定功能的蛋白质结构,展示了分子生物学在设计和功能性方面的前景。

生物医学领域则更加直接地将大模型应用于临床和医疗研究中。2023年,Google发布的Med-Palm模型 就是一个突破,该模型能够根据X光片和病理切片精确地诊断疾病。同时,越来越多的公司正在开发用于医学诊断的AI模型,这些所谓的AI医生已得到美国食品药品监督管理局(FDA)的广泛认证,近十年来批准了500多款相关医疗设备。然而,这些模型必须面对伦理和准确性的严峻考验,特别是如何处理模型可能产生的误诊问题。

(2)生物医学与AI的融合

301ae8f2a3ef4a13ecab15b8588473d5.jpeg

生物医学领域则更加直接地将大模型应用于临床和医疗研究中。2023年,Google发布的Med-Palm模型就是一个突破,该模型能够根据X光片和病理切片精确地诊断疾病。同时,越来越多的公司正在开发用于医学诊断的AI模型,这些所谓的AI医生已得到美国食品药品监督管理局(FDA)的广泛认证,近十年来批准了500多款相关医疗设备。然而,这些模型必须面对伦理和准确性的严峻考验,特别是如何处理模型可能产生的误诊问题。

(3)实验自动化

在生命科学的实验领域,AI也在实现自动化操作上展示了巨大潜力。例如,2023年卡内基梅隆大学的研究团队开发了一种智能代理(Intelligent Agent),该系统可以自主设计、规划和执行科学实验,显著提高了实验效率并减少了生物学家在繁琐重复性实验中的工作负担。

总的来说,生命健康领域的AI应用正在开辟全新的科研和医疗治疗方法,不仅加速了科学发现的速度,也在提高医疗诊断的精确度和个性化治疗的可能性。这些进展预示着未来我们能够更深入地理解和操作 生命的基本构建模块,从而为疾病治疗和健康管理带来革命性的改变。

在多模态大模型的探讨中,我们不仅见证了其在技术和理论上的飞跃,更能洞察到其对各行各业的深远影响。多模态技术的融合性和灵活性,让它成为了解决复杂问题和创新服务的关键工具。它的应用前景广阔,从改善用户体验到促进科学研究,无不体现了其独特价值。AI不仅在理论和技术进步上取得了显著成就,更在实际应用中显示出巨大的潜力。从检索推荐系统的革新,到计算机视觉的突破,再到生命科学的深刻影响,多模态大模型的发展正推动着一个跨学科融合的新时代。

78452a0de4ce9e575f5f5d9462d2b9bb.png

往期精彩文章推荐

abdf46085c6b4db3c38227a9a5646481.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1700多位海内外讲者,举办了逾600场活动,超700万人次观看。

eb38aed1baea415a11eefcae3fc6b651.png

我知道你

在看

~

3f6e9a2a17f06e4314440a406e21a150.gif

点击 阅读原文 播放回放!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值