利用Stanford Parser进行中文观点抽取（附代码）

最新推荐文章于 2022-01-14 09:37:48 发布

gdp5211314

最新推荐文章于 2022-01-14 09:37:48 发布

阅读量4.5k

点赞数 2

分类专栏： nlp 文章标签： string tree 产品情感 null

nlp 专栏收录该内容

6 篇文章

订阅专栏

本文探讨了观点抽取技术在理解用户对产品评价中的应用，通过文本处理和语法分析，识别出特征词及其相关的情感观点词，以提高产品评价分析的准确性和效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题：

所谓的观点抽取就是从文本中获取关于某个特征词的观点词语。特征词在句子结构中通常为主语或者宾语，从词性上看一般为名词或者形容词，而观点词通常为带有情感色彩的形容词或者副词。观点词的抽取在用户对产品评价分析中非常有用。

例如：在句子“卖家的服务态度不错，快递也很迅速”这个句子中，“服务”和“快递”是两个描述卖家的特征词，而“不错”和“迅速”则是这两个词的观点词。

方法：

1.选择文本数据（数据源，如产品评论文本等）

2.对文本进行断句和分词

3.筛选相关句子（找出含有特征描述对象的句子，直接匹配）

5.语法分析（Stanford Parser)

6.抽取观点词（遍历stanford-parser生成的语法结构树，找到离特征词节点最近的观点词节点，具体参见下面代码）

代码：

这里给的代码直接略过了前面几步，输入为：分词后的句子和特征词，输出：该特征词的观点词。

package textAnalysis;

import java.io.StringReader;

import java.util.Iterator;

import java.util.List;

import edu.stanford.nlp.ling.HasWord;

import edu.stanford.nlp.parser.lexparser.LexicalizedParser;

import edu.stanford.nlp.process.Tokenizer;

import edu.stanford.nlp.trees.Tree;

import edu.stanford.nlp.trees.TreebankLanguagePack;

import edu.stanford.nlp.trees.international.pennchinese.ChineseTreebankLanguagePack;

public class DepedWordExtra {

static String[] options = { "-MAX_ITEMS", "200000000" };

static LexicalizedParser lp = new LexicalizedParser(

"grammar/chinesePCFG.ser.gz", options);

public static void main(String[] args) {

String sentence = "老师穿着一件很美丽的衣服";

String keyword = "衣服";

int kwIndex = 0;

String sentArry[] = sentence.split(" ");

for (int i = 0; i < sentArry.length; i++) {

if (keyword.equals(sentArry[i])) {

kwIndex = i;

break;

}

}

// System.out.println(kwIndex);

extraDepWord(sentence, keyword);

}

private static void extraDepWord(String sentence, String keyword) {

// TODO Auto-generated method stub

TreebankLanguagePack tlp = new ChineseTreebankLanguagePack();

Tokenizer<? extends HasWord> toke = tlp.getTokenizerFactory()

.getTokenizer(new StringReader(sentence));

List<? extends HasWord> sentList = toke.tokenize();

Tree parse = lp.apply(sentList);

List<Tree> leaves = parse.getLeaves();

Iterator<Tree> it = leaves.iterator();

while (it.hasNext()) {

Tree leaf = it.next();

if (leaf.nodeString().trim().equals(keyword)) {

Tree start = leaf;

start = start.parent(parse);

String tag = start.value().toString().trim();

boolean extraedflg = false;

// 如果当前节点的父节点是NN，则遍历该父节点的父节点的兄弟节点

if (tag.equals("NN") || tag.equals("VA")) {

for (int i = 0; i < parse.depth(); i++) {

start = start.parent(parse);

if (start.value().toString().trim().equals("ROOT")

|| extraedflg == true) {

break;

} else {

List<Tree> bros = start.siblings(parse);

if (bros != null) {

Iterator<Tree> it1 = bros.iterator();

while (it1.hasNext()) {

Tree bro = it1.next();

extraedflg = IteratorTree(bro, tag);

if (extraedflg) {

break;

}

}

}

}

}

}

}

}

}

private static boolean IteratorTree(Tree bro, String tagKey) {

List<Tree> ends = bro.getChildrenAsList();

Iterator<Tree> it = ends.iterator();

while (it.hasNext()) {

Tree end = it.next();

String tagDep = end.value().toString().trim();

if ((tagKey.equals("NN") && tagDep.equals("VA")) || (tagKey.equals("VA") && tagDep.equals("AD"))) {

Tree depTree = end.getChild(0);

System.out.println(depTree.value().toString());

return true;

} else if (IteratorTree(end, tagKey)) {

return true;

}

}

return false;

}

}

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。