NLP学徒-优快云博客

转载【AdaSeq基础】30+NER数据汇总，涉及多行业、多模态命名实体识别数据集收集

命名实体识别NER是NLP基础任务，一直以来受到学术界和业界的广泛关注，本文汇总了常见的中英文、多语言、多模态NER数据集介绍。本列表由达摩院NLP团队和天池数据科学团队长期维护，相关数据可以通过序列理解统一框架AdaSeq进行模型训练。

2023-02-07 12:02:20 10159

转载【AdaSeq论文解读】ACL 2022 | WikiDiverse, 一份多模态实体识别&实体链接数据集

我们提出了一个多模态实体链接数据集。为构建这一数据集，我们基于多个角度的考虑：首先，我们综合参考现有的实体链接数据集、分析图文匹配程度、实体消歧难度等信息，采用WikiNews的“图片-标题”对作为原始数据，将Wikipedia作为对应的知识图谱

2023-02-07 11:59:45 788

转载轻松使用阿里达摩院开源在魔搭社区上的CLUE语义匹配模型

CLUE（中文语言理解测评基准）是中文语言理解领域的权威榜单，包含多项测评任务。近日，达摩院NLP团队在其中的语义匹配榜登顶，并在魔搭社区（ModelScope）上开源了预训练和微调后的模型。本文将介绍该模型及其使用方法。

2023-02-07 11:57:10 1034 1

转载【AdaSeq论文解读】ACL 22–PIQN｜Seq2Set：将命名实体识别转化为实例查询-集合生成任务

当前的NER任务被转换为阅读理解任务，但是存在着一个问题只能抽取到一种类型的实体从而效率低下，忽略实体之间的依赖性，模板需要手工构造等问题。这篇论文设定全局和可学习的实例查询语句，把NER任务理解为集合生成任务，同时可并行从句子抽取各类实体。

2023-02-07 11:55:11 511

转载【AdaSeq论文解读】垂直领域NER优化 COLING-22

在本文中，我们提出检索使用相似样本来提升垂直领域NER性能，以及 Entity-Voting 和 Cross-Encoder 两个简单的相似样本建模方法，在地址和电商两个特殊领域上的实验验证了方法的有效性。

2023-01-06 16:36:38 382

转载【AdaSeq论文解读】ICLR 22-EntQA：通过问答范式进行实体链接

之前的实体链接方法面临着在不知道相应实体的情况下不得不预测提及的困境。这篇论文提出了 EntQA，它通过“先预测候选实体然后找到它们在文本中的具体提及“来解决这个难题。EntQA解决方案的提出充分地将文本检索和阅读理解方面的最新研究进展利用到了实体链接任务当中，这其实是如今NLP各任务间范式迁移的又一成功范例。

2023-01-06 11:49:28 309

原创轻松使用阿里达摩院开源在魔搭社区上的CLUE语义匹配模型

本文介绍了阿里达摩院开源在魔搭社区上的CLUE语义匹配模型及其使用教程，通过简单的模型融合策略，可以获得不错的结果。

2023-01-04 20:23:32 996

转载【AdaSeq行业应用系列】篇章级关键词抽取比赛，baseline模型开箱即用，

我们从alimeeting的654场会议内容作为文档，对每篇会议文档找了三名标注人员进行关键词抽取标注，然后将每个在文中的关键词标注为进行NER的格式，在bert-crf的框架上当做NER任务进行训练。训练好的模型已经开源在modelscope上，安装modelscope，采取ner pipeline，调用我们训练好的baseline model，就可以使用了。

2022-12-30 17:50:54 529

转载【AdaSeq论文解读系列】ACL 21-自动组合各种BERT模型，在实体抽取、观点抽取、句法分析等六大结构预测任务20+个数据集获SOTA，比ensemble更强！

本文介绍了一项研究工作，提出了在结构预测问题上自动拼接word embedding（word embedding）以提高模型准确度的方法。该论文已被ACL2021接收为长文。

2022-12-30 17:44:32 820

转载阿里达摩院将知识引入命名实体识别，摘得10个榜首，荣获SemEval 2022最佳论文，打榜模型和复现代码全方位开源！

阿里达摩院NLP团队荣获 SemEval 2022 最佳系统论文奖，相关代码和模型已经开源，技术积累转化为开源NLP代码框架 AdaSeq。

2022-12-30 17:32:00 1480

JohnsonZh的博客