Stanford CoreNLP生成CoNLL数据格式

最新推荐文章于 2025-11-23 08:51:05 发布

原创最新推荐文章于 2025-11-23 08:51:05 发布 · 7.3k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#NLP #CoreNLP #CoNNL #语言学 #自然语法处理

机器学习专栏收录该内容

5 篇文章

订阅专栏

本文介绍了StanfordCoreNLP工具的功能及其使用Java8进行文本分析的方法。此外，还详细解释了如何利用该工具生成英语句子的CoNLL标准格式，并提供了具体的步骤及样例。

Stanford CoreNLP + Java 8:

 https://stanfordnlp.github.io/CoreNLP/index.html

 斯坦福大学CoreNLP提供了一套人类语言技术工具。它可以给出词的基本形式，词类，是否是公司名称，人名等，规范日期，时间和数量，根据短语和句法依赖标记句子的结构，指出哪些名词短语是指相同的实体，表示情感，提取实体提及的特定或开放的类关系，得到人们所说的引号等等。

CoNLL X

 CoNLL是一个由SIGNLL(ACL's Special Interest Group on Natural Language Learning: 计算语言学协会的自然语言学习特别兴趣小组）组织的顶级会议。CoNLL X (如CoNLL 2006)是它定义的语言学数据格式。

以CoNLL 2006为例，通过corenlp如何生成英语句子的CoNLL格式：

 例句：The system, known as the society for worldwide interbank financial telecommunication, or swift, oversees the network used by most of the world's largest banks to conduct financial wire transfers.

 保存为english.txt

第一步：生成语法树：

 java -Xmx2g -cp "stanford-corenlp-full-2017-06-09/*" edu.stanford.nlp.parser.lexparser.LexicalizedParser -outputFormat "penn" edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz english.txt >english.tree

第二步：通过语法树生成CoNLL格式：

 java -Xmx2g -cp "stanford-corenlp-full-2017-06-09/*" edu.stanford.nlp.trees.EnglishGrammaticalStructure -treeFile english.tree -conllx >english.conll.txt