文章核心内容与创新点总结
一、主要内容
该研究聚焦于流动可视化领域的交互难题,提出了一套自动语义对齐框架,旨在通过自然语言交互实现对复杂流动模式的直观探索,核心内容可分为三部分:
-
流动模式表示(Flow Pattern Representation)
- 从流线中采样不同长度的线段,通过层级采样策略覆盖宏观与微观流动结构;
- 将线段转换为距离矩阵(包含采样点间成对距离),确保刚体变换不变性;
- 采用去噪自动编码器(DAE) 对距离矩阵进行无监督学习,生成紧凑且具有判别性的流动特征向量,其中融入扩散模型的噪声注入机制以提升特征鲁棒性。
-
语义对齐模块(Semantic Alignment)
- 设计投影网络(Projector),将DAE生成的流动特征映射到大型语言模型(LLM)的语义空间,解决流动特征(连续向量)与文本嵌入(离散token)的模态差异;
- 利用GPT-4o自动生成文本-流动指令数据(包含流线图像描述与流动动力学推理),避免人工标注成本,数据涵盖形状特征描述与复杂物理机制推理两类指令;
- 分两阶段训练:第一阶段固定DAE与LLM,仅训练投影网络实现特征对齐;第二阶段采用LoRA微调
订阅专栏 解锁全文
623

被折叠的 条评论
为什么被折叠?



