Decomposed Meta-Learning for Few-Shot Named Entity Recognition

研究者提出了一种基于分解元学习的方法,解决了基于span的实体检测和分类问题,通过MAML训练spandetector,以及MAML-ProtoNet进行跨域实体类型识别。实验表明该方法在Intra和Inter数据设置以及Cross-Dataset上表现优秀。

原文链接:

https://aclanthology.org/2022.findings-acl.124.pdf

ACL 2022

介绍

        问题

         目前基于span的跨度量学习(metric learning)的方法存在一些问题:

        1)由于是通过枚举来生成span,因此在解码的时候需要额外处理重叠的span;

        2)non-entites类别的原型通常都是噪声;

        3)跨域时,最有用的信息就是当前领域有限的样本,之前的方法只将这些样本用于分类的相似性计算。

        IDEA 

        作者提出分解元学习(decomposed meta-learning)的方法来解决Few-shot ner任务(实体的边界检测和实体的分类)。

        将span检测作为序列标注问题,并通过引入MAML(model-agnostic metalearning 不是很懂 可以参考这篇文章Model-Agnostic Meta-Learning (MAML)模型介绍及算法详解 - 知乎)训练span detector,从而找到一个能快速适应新实体类别的模型参数进行初始化;对于实体分类,作者提出MAML-ProtoNet来找到一个合适的向量空间对不同类别的span进行分类。 

方法

        整个方法的整体结构如下所示:

 Entity span Detection

        &nbs

要对《Decomposed Soft Actor Critic Method for Cooperative Multi-Agent Reinforcement Learning》这篇论文进行精读,可从以下几个方面展开: ### 研究背景与动机 多智能体强化学习(MARL)在合作场景中面临着诸多挑战,如智能体之间的协调、可扩展性等问题。传统的强化学习方法难以直接应用于多智能体环境,因为智能体的动作和奖励相互影响。软演员 - 评论家(Soft Actor - Critic, SAC)方法在单智能体领域取得了很好的效果,但在多智能体合作场景下,需要进行改进以适应多智能体的特点。该论文旨在提出一种分解式的软演员 - 评论家方法,以解决合作多智能体强化学习中的问题。 ### 核心方法 - **分解式架构**:论文提出将联合动作价值函数分解为个体动作价值函数之和。这种分解方式使得每个智能体可以独立地学习其动作价值,同时考虑其他智能体的策略。通过这种分解,降低了学习的复杂度,提高了算法的可扩展性。 - **软演员 - 评论家框架**:在传统SAC的基础上进行扩展。演员网络负责学习每个智能体的策略,以最大化累积奖励和熵。评论家网络则用于估计动作价值函数。在多智能体场景下,每个智能体都有自己的演员和评论家网络,通过交互和学习不断优化策略。 - **熵正则化**:引入熵正则化项来鼓励智能体探索更多的动作。在多智能体环境中,熵正则化有助于智能体避免陷入局部最优解,提高策略的多样性和鲁棒性。 ### 实验设置与结果 - **实验环境**:论文在多个合作多智能体环境中进行了实验,如多智能体网格世界、协作导航等。这些环境具有不同的复杂度和特点,可以全面评估算法的性能。 - **对比方法**:与其他经典的多智能体强化学习算法进行对比,如QMIX、VDN等。通过对比实验,验证了分解式软演员 - 评论家方法在收敛速度、最终性能等方面的优势。 - **实验结果分析**:实验结果表明,该方法在合作多智能体任务中取得了更好的性能。具体表现为更快的收敛速度、更高的累积奖励和更好的智能体协调能力。 ### 代码示例(伪代码) ```python # 初始化每个智能体的演员和评论家网络 for agent in agents: agent.actor_network = initialize_actor_network() agent.critic_network = initialize_critic_network() # 训练循环 for episode in range(num_episodes): # 初始化环境 state = env.reset() done = False while not done: # 每个智能体根据其策略选择动作 actions = [] for agent in agents: action = agent.actor_network.sample_action(state) actions.append(action) # 执行动作,获取下一个状态和奖励 next_state, rewards, done = env.step(actions) # 每个智能体更新其评论家网络 for agent in agents: agent.critic_network.update(state, actions, rewards, next_state) # 每个智能体更新其演员网络 for agent in agents: agent.actor_network.update(agent.critic_network) state = next_state ``` ### 总结与贡献 该论文提出的分解式软演员 - 评论家方法为合作多智能体强化学习提供了一种有效的解决方案。通过分解联合动作价值函数和引入熵正则化,提高了算法的可扩展性和性能。实验结果验证了该方法在多个合作多智能体任务中的有效性。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值