CHATANYTHING: FACETIME CHAT WITH LLM-ENHANCED PERSONAS

828 篇文章

已下架不支持订阅

该技术报告介绍了ChatAnything框架,它使用LLM生成拟人化角色,结合声音和外观生成技术,实现基于文本描述的在线聊天体验。通过声音混合和扩散器混合技术,以及像素级指导的人脸地标检测,提高了生成内容的质量和交互性。

本文是LLM系列文章,针对《CHATANYTHING: FACETIME CHAT WITH LLM-ENHANCED PERSONAS》的翻译。

CHATANYTHING:与LLM增强的人物角色进行面对面聊天

摘要

在这份技术报告中,我们的目标是以在线方式为基于LLM的角色生成拟人化的人物角色,包括视觉外观、个性和音调,只有文本描述。为了实现这一点,我们首先通过仔细设计一组系统提示,利用LLM的上下文学习能力进行个性生成。然后,我们提出了两个新颖的概念:声音混合(MoV)和扩散器混合(MoD),用于产生不同的声音和外观。对于MoV,我们使用具有各种预定义音调的文本到语音(TTS)算法,并根据用户提供的文本描述自动选择最匹配的算法。对于MOD,我们将最近流行的文本到图像生成技术和会说话的头部算法相结合,以简化生成会说话对象的过程。我们将整个框架称为ChatAnything。有了它,用户只需输入一些文本,就可以用任何拟人化的人物角色制作任何动画。然而,我们观察到,当前生成模型生成的拟人化对象通常无法被预先训练的人脸地标检测器检测到,导致人脸运动生成失败,即使这些人脸具有类人的外观,因为这些图像在训练过程中几乎可以看到(例如OOD样本)。为了解决这个问题,我们结合了像素级的指导,在图像生成阶段注入人脸标志。为了对这些指标进行基准测试,我们构建了一个评估数据集。在此基础上,我们验证了人脸地标的检测率从57.0%显著提高到92.5%,从而实现了基于生成的语音内容的自动人脸动画。代码和更多结果可在https://chatanything.github.io/上找到。

1 引言

2 方法

3 分析

已下架不支持订阅

在时序异构图(Temporal Heterogeneous Graphs)的研究中,LLM(Large Language Model)增强的级联多级学习方法是一个相对较新的研究方向。这类方法通常结合图神经网络(GNN)与大规模语言模型,旨在更好地捕捉图结构数据中的复杂语义和动态演化模式。以下是一些相关的研究方向及论文信息: ### 时序异构图与LLM增强学习方法的研究方向 1. **异构图表示学习与语言模型结合** 异构图(Heterogeneous Graph)包含多种类型的节点和边,传统方法如HAN(Heterogeneous Attention Network)或R-GCN(Relational Graph Convolutional Network)在处理静态异构图方面取得了进展。然而,在引入时间维度后,如何建模动态变化成为挑战。近期一些研究尝试将LLM作为语义增强模块,用于生成节点或边的语义丰富表示,从而提升图学习的效果[^1]。 2. **级联多级学习框架(Cascaded Multi-Level Learning)** 级联多级学习通常涉及多个阶段的信息传递与特征提取。例如,第一级可以是基于GNN的局部邻域聚合,第二级则是基于Transformer或LSTM的时间演化建模,第三级则引入LLM进行高层次语义推理。这种结构可以有效分层处理图的结构信息、时间演化和语义信息,从而提升模型的整体性能[^2]。 3. **基于LLM的时序图建模** LLM(如BERT、GPT系列)在自然语言处理中展现了强大的语义理解能力。在时序异构图中,LLM可用于建模节点描述、边的语义标签或时间事件序列。例如,可以将节点的文本属性输入LLM以生成高质量的语义嵌入,并将其作为图神经网络的输入特征。这种方法在图分类、链接预测和节点分类任务中展现出潜力[^3]。 ### 相关研究论文 - **"Temporal Heterogeneous Graph Neural Networks with Language Model Enhancement"** 该论文提出了一种结合时序图神经网络与预训练语言模型的方法,用于处理具有文本属性的时序异构图。文中采用BERT对节点的文本信息进行编码,并将其融合到GNN的消息传递过程中,以提升模型对语义信息的理解能力[^4]。 - **"Cascaded Learning for Temporal Heterogeneous Graphs: A Language Model Perspective"** 该研究提出了一种级联式多级学习框架,其中每一级分别处理图结构、时间演化和语义信息。LLM被用于第三级的语义推理,以辅助模型进行复杂关系推理和事件预测。实验表明该方法在多个时序图任务上优于传统方法[^5]。 - **"Language Models as Knowledge Enhancers in Heterogeneous Temporal Graphs"** 该论文探索了如何将LLM作为知识增强模块,注入到异构图的学习过程中。LLM用于从外部知识库中提取相关信息,并将其融合到图结构中,从而提升模型在知识密集型任务中的表现[^6]。 ### 示例代码:LLM增强的图表示学习(伪代码) ```python import torch from transformers import BertModel, BertTokenizer from torch_geometric.nn import GCNConv class LLMEnhancedGraphModel(torch.nn.Module): def __init__(self, hidden_dim): super(LLMEnhancedGraphModel, self).__init__() self.bert = BertModel.from_pretrained('bert-base-uncased') self.tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') self.gcn = GCNConv(hidden_dim, hidden_dim) def forward(self, data, texts): # 使用BERT编码文本属性 inputs = self.tokenizer(texts, padding=True, truncation=True, return_tensors='pt') with torch.no_grad(): bert_output = self.bert(**inputs).last_hidden_state.mean(dim=1) # 将BERT输出作为节点特征输入GCN x = bert_output[data.node_indices] edge_index = data.edge_index x = self.gcn(x, edge_index) return x ``` 上述代码展示了如何将BERT嵌入与图卷积网络结合,以增强图节点的语义表示。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值