一文彻底搞懂多模态 - 基本术语，零基础入门到精通，收藏这篇就够了

最新推荐文章于 2025-10-08 18:10:15 发布

原创最新推荐文章于 2025-10-08 18:10:15 发布 · 1.3k 阅读

·

19

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#学习 #web安全 #数据库 #网络 #安全架构 #python #java

网络安全同时被 3 个专栏收录

3148 篇文章

订阅专栏

3071 篇文章

订阅专栏

749 篇文章

订阅专栏

MultiModal

多模态人工智能**利用来自多个不同模态（如文本、图像、声音、视频等）的数据进行学习和推理。多模态人工智能强调不同模态数据之间的互补性和融合性******，通过整合多种模态的数据，利用表征学习、模态融合与对齐等技术，实现跨模态的感知、理解和生成，推动智能应用的全面发展。

接下来分三部分：_数据采集与表示、数据处理与融合、**学习与推理，___**一起来科普下多模型的基本术语。

MultiModal

一、数据采集与表示

****什么是传感器（Sensor）？******传感器是一种检测物理量并将其转换为可测量信号的装置或元件。在多模态学习中，****传感器用于捕捉不同模态的数据，如摄像头捕捉图像（视觉模态）、麦克风捕捉声音（声音模态）**等。

传感器是多模态数据采集的起点，它使得机器能够感知并获取来自不同物理世界的信息。

传感器

什么是模态（Modal）？模态是指信息的表现形式或感知方式，如**文本、图像、声音、视频****等。在语言学中，模态也可以指说话人对某种语言表达的态度或语气。但在多模态学习中，我们主要关注数据的表现形式。**

什么是多模态（MultiModal）？多模态是指利用来自多个不同模态的数据进行学习和推理的过程。这些模态可以是**文本、图像、声音、视频等的组合****。**

**不同的模态提供了不同的信息渠道，它们之间可能存在冗余性，但更多的是互补性。多模态模型**能够整合来自不同模态的信息，正是利用这些不同模态的信息来增强模型的感知与理解能力。

多模态

****什么是表征学习（Representation Learning）？****表征学习是指学习数据的有效表示方式，使得数据在该表示下更容易被机器学习算法处理。

在多模态学习中，表征学习是关键环节之一。它负责将原始的多模态数据转换为适合模型处理的低维、稠密且富有语义信息的表示。

表征学习

二、数据处理与融合

什么是模态融合******（Modal Fusion）**？****模态融合是指将来自不同模态的信息进行有效整合的过程。

早期融合：在数据处理的早期阶段就将不同模态的数据合并在一起。
晚期融合：在数据处理的后期阶段才将不同模态的信息进行整合。
混合融合：结合早期融合和晚期融合的优点，在不同的处理阶段进行多次融合。

模态融合能够充分利用不同模态之间的互补性，提高模型的性能和鲁棒性。

模态融合

****什么是模态对齐（Modal Alignment）？模态对齐是指寻找来自不同模态数据之间的对应关系或一致性。

时间维度对齐：如将视频中的动作与音频中的语音进行对齐。
空间维度对齐：如将图像中的像素与文本中的单词进行对齐。

模态对齐是多模态学习中实现不同模态信息有效融合的重要前提。通过对齐操作，可以确保不同模态的数据在时间和空间上保持一致性，从而进行更有效的融合和推理。

模态对齐

三、学习与推理

什么是迁移学习（Transfer Learning）？迁移学习是一种机器学习方法，它利用在一个任务上学到的知识来帮助解决另一个不同但相关的任务。

在多模态学习中，迁移学习可以帮助模型更快地适应新的模态或任务，提高学习效率。例如，可以将在大量文本数据上学到的知识迁移到图像描述任务中。

迁移学习

什么是多模态学习（Multimo****dal Learning）？多模态学习是指利用来自多个不同模态的数据进行学习和推理的过程。它旨在整合不同模态之间的互补信息，以提高模型的感知与理解能力。

多模态学习是当前人工智能领域的一个研究热点，它推动了智能应用的边界扩展。通过多模态学习，我们可以构建更加智能、更加全面的系统来应对复杂多变的现实世界。

**

题外话

黑客&网络安全如何学习

今天只要你给我的文章点赞，我私藏的网安学习资料一样免费共享给你们，来看看有哪些东西。

1.学习路线图

在这里插入图片描述

攻击和防守要学的东西也不少，具体要学的东西我都写在了上面的路线图，如果你能学完它们，你去就业和接私活完全没有问题。

2.视频教程
网上虽然也有很多的学习资源，但基本上都残缺不全的，这是我自己录的网安视频教程，上面路线图的每一个知识点，我都有配套的视频讲解。

内容涵盖了网络安全法学习、网络安全运营等保测评、渗透测试基础、漏洞详解、计算机基础知识等，都是网络安全入门必知必会的学习内容。

在这里插入图片描述

（都打包成一块的了，不能一一展开，总共300多集）

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

🐵这些东西我都可以免费分享给大家，需要的可以点这里自取👉:网安入门到进阶资源

3.技术文档和电子书
技术文档也是我自己整理的，包括我参加大型网安行动、CTF和挖SRC漏洞的经验和技术要点，电子书也有200多本，由于内容的敏感性，我就不一一展示了。

在这里插入图片描述

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

🐵这些东西我都可以免费分享给大家，需要的可以点这里自取👉:网安入门到进阶资源

4.工具包、面试题和源码
“工欲善其事必先利其器”我为大家总结出了最受欢迎的几十款款黑客工具。涉及范围主要集中在信息收集、Android黑客工具、自动化工具、网络钓鱼等，感兴趣的同学不容错过。

还有我视频里讲的案例源码和对应的工具包，需要的话也可以拿走。

🐵这些东西我都可以免费分享给大家，需要的可以点这里自取👉:网安入门到进阶资源

最后就是我这几年整理的网安方面的面试题，如果你是要找网安方面的工作，它们绝对能帮你大忙。

这些题目都是大家在面试深信服、奇安信、腾讯或者其它大厂面试时经常遇到的，如果大家有好的题目或者好的见解欢迎分享。

参考解析：深信服官网、奇安信官网、Freebuf、csdn等

内容特点：条理清晰，含图像化表示更加易懂。

内容概要：包括内网、操作系统、协议、渗透测试、安服、漏洞、注入、XSS、CSRF、SSRF、文件上传、文件下载、文件包含、XXE、逻辑漏洞、工具、SQLmap、NMAP、BP、MSF…

在这里插入图片描述

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

🐵这些东西我都可以免费分享给大家，需要的可以点这里自取👉:网安入门到进阶资源
————————————————

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。