最近在研究数字员工中文智能实体识别相关的内容,涉及到了技术选型,最开始是从rasa开始研究,rasa提供了基于spacy、regex(规则)、mitie等多种类型的实体抽取,但是发现这些对于英文支持好,对于中文存在很多问题,为此开始自己摸索所有对于实体识别相关的技术,并且通过测试来判断是否适合。
1、基于transform模型的实体识别
1.1 bert-base-chinese
from transformers import BertTokenizer, BertForTokenClassification
from transformers import pipeline
bert_tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
entity_model = BertForTokenClassification.from_pretrained('bert-base-chinese')
nlp = pipeline('ner', model=entity_model, tokenizer=bert_tokenizer)
def process(message, **kwargs):
ner_results = nlp(message)
entities = [{"start": result["start"], "end": result["end"], "value": result["word"], "entity": result["entity"]} for result in ner_results]
return entities
print(process("我要定一个10月25日的上海康柏酒店的房间"))
得到了如下的结果
Some weights of BertForTokenClassification were not initialized from the model checkpoint at bert-base-chinese and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
[{'start': None, 'end': None, 'value': '我', 'entity': 'LABEL_1'}, {'start': None, 'end': None, 'value': '要', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '定', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '一', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '个', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '10', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '月', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '25', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '日', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '的', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '上', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '海', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '康', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '柏', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '酒', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '店', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '的', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '房', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '间', 'entity': 'LABEL_0'}]
全部是分开的
1.2 百度nghuyong/ernie-3.0-base-zh
# 百度
from transformers import BertTokenizer, BertForSequenceClassification
tokenizer = BertTokenizer.from_pretrained("nghuyong/ernie-3.0-base-zh")
model = BertForSequenceClassification.from_pretrained("nghuyong/ernie-3.0-base-zh")
nlp = pipeline('ner', model=entity_model, tokenizer=bert_tokenizer)
message = "我要定一个10月25日的上海康柏酒店的房间"
ner_results = nlp(message)
print(ner_results)
[{'entity': 'LABEL_1', 'score': 0.5509777, 'index': 1, 'word': '我', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7085775, 'index': 2, 'word': '要', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6702529, 'index': 3, 'word': '定', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6158042, 'index': 4, 'word': '一', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7743202, 'index': 5, 'word': '个', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6544865, 'index': 6, 'word': '10', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7507361, 'index': 7, 'word': '月', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7569169, 'index': 8, 'word': '25', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.65982026, 'index': 9, 'word': '日', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6651067, 'index': 10, 'word': '的', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.545048, 'index': 11, 'word': '上', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.53704095, 'index': 12, 'word': '海', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.57766277, 'index': 13, 'word': '康', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.66884404, 'index': 14, 'word': '柏', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.5223569, 'index': 15, 'word': '酒', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6932911, 'index': 16, 'word': '店', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.5868039, 'index': 17, 'word': '的', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.5755562, 'index': 18, 'word': '房', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6146511, 'index': 19, 'word': '间', 'start': None, 'end': None}]
1.3 Google hfl/chinese-electra-180g-base-discriminator
# Google
from transformers import ElectraTokenizer, ElectraForTokenClassification
tokenizer = ElectraTokenizer.from_pretrained("hfl/chinese-electra-180g-base-discriminator")
model = ElectraForTokenClassification.from_pretrained("hfl/chinese-electra-180g-base-discriminator")
nlp = pipeline('ner', model=entity_model, tokenizer=bert_tokenizer)
message = "我要定一个10月25日的上海康柏酒店的房间"
ner_results = nlp(message)
print(ner_results)
[{'entity': 'LABEL_1', 'score': 0.5509777, 'index': 1, 'word': '我', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7085775, 'index': 2, 'word': '要', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6702529, 'index': 3, 'word': '定', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6158042, 'index': 4, 'word': '一', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7743202, 'index': 5, 'word': '个', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6544865, 'index': 6, 'word': '10', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7507361, 'index': 7, 'word': '月', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7569169, 'index': 8, 'word': '25', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.65982026, 'index': 9, 'word': '日', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6651067, 'index': 10, 'word': '的', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.545048, 'index': 11, 'word': '上', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.53704095, 'index': 12, 'word': '海', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.57766277, 'index': 13, 'word': '康', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.66884404, 'index': 14, 'word': '柏', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.5223569, 'index': 15, 'word': '酒', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6932911, 'index': 16, 'word': '店', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.5868039, 'index': 17, 'word': '的', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.5755562, 'index': 18, 'word': '房', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6146511, 'index': 19, 'word': '间', 'start': None, 'end': None}]
1.4 hfl/chinese-macbert-large
from transformers import BertTokenizer, BertForTokenClassification
tokenizer = BertTokenizer.from_pretrained("hfl/chinese-macbert-large")
model = BertForTokenClassification.from_pretrained("hfl/chinese-macbert-large")
nlp = pipeline('ner', model=entity_model, tokenizer=bert_tokenizer)
message = "我要定一个10月25日的上海康柏酒店的房间"
ner_results = nlp(message)
print(ner_results)
[{'entity': 'LABEL_1', 'score': 0.5509777, 'index': 1, 'word': '我', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7085775, 'index': 2, 'word': '要', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6702529, 'index': 3, 'word': '定', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6158042, 'index': 4, 'word': '一', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7743202, 'index': 5, 'word': '个', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6544865, 'index': 6, 'word': '10', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7507361, 'index': 7, 'word': '月', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7569169, 'index': 8, 'word': '25', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.65982026, 'index': 9, 'word': '日', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6651067, 'index': 10, 'word': '的', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.545048, 'index': 11, 'word': '上', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.53704095, 'index': 12, 'word': '海', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.57766277, 'index': 13, 'word': '康', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.66884404, 'index': 14, 'word': '柏', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.5223569, 'index': 15, 'word': '酒', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6932911, 'index': 16, 'word': '店', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.5868039, 'index': 17, 'word': '的', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.5755562, 'index': 18, 'word': '房', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6146511, 'index': 19, 'word': '间', 'start': None, 'end': None}]
发现上面的全部都是基于单个字的,查询后说合并的话要自己更具字的类型进行处理,没法用,自能开始研究其它的非 transform的模型
2、使用 spacy 进行识别
2.2 spacy 的 zh_core_web_lg 模型
在使用 zh_core_web_lg 模型之前,需要自己下载安装一下,spacy 不会自动下载的
import spacy
# 加载中文模型
nlp = spacy.load('zh_core_web_lg')
# 测试文本
text = "明天下午5点会议结束。"
text = "我要定一个10月25号的上海静安康柏酒店的房间"
# 处理文本
doc = nlp(text)
# 遍历识别到的实体
for ent in doc.ents:
# 检查实体是否是一个日期或时间
if ent.label_ == 'TIME' or ent.label_ == 'DATE':
print(f"识别到的时间或日期: {ent.text}")
识别到的时间或日期: 10月25号
这个模型可以自动识别时间格式
来个复杂一点的
import spacy
import cn2an # 用于将中文数字转换为阿拉伯数字
# 加载中文模型
nlp = spacy.load('zh_core_web_lg')
ruler = nlp.add_pipe("entity_ruler", before="ner")
nlp.remove_pipe("entity_ruler")
ruler = nlp.add_pipe("entity_ruler", before="ner")
system_patterns = [
#{"label": "DATE", "pattern": [{"text": "10月25日"}]},
{"label": "QUANTITY", "pattern": [{"like_num": True}, {"text": "个"}]}, # 识别 "10个"
{"label": "MONEY", "pattern": [{"like_num": True}, {"text": "元"}]}, # 识别 "100元"
{"label": "QUANTITY", "pattern": [{"like_num": True}, {"text": "只"}]}, # 识别 "5只"
{"label": "QUANTITY", "pattern": [{"like_num": True}, {"text": "件"}]}, # 识别 "3件"
]
#ruler.add_patterns(system_patterns)
# 添加自定义规则到 EntityRuler
patterns = [
{"label": "ORG", "pattern": [{"lower": "静安康柏酒店"}]}, # 自定义实体:New York
{"label": "ORG", "pattern": [{"lower": "房间"}]}, # 自定义实体:OpenAI
]
#text = "我要定一个10月25号的上海静安康柏酒,我有二百三十块钱,七千五百零五元,四十元的折扣。"
text = "我要定一个10月25号的上海静安康柏酒。"
# 正则匹配中文数字(例如:二百三十,七千五百零五,四十)
chinese_number_pattern = r"(\d{1,3}[万千百十])|([一二三四五六七八九十零百千万])+" # 匹配中文数字
# 使用正则表达式提取中文数字部分
chinese_numbers = re.findall(chinese_number_pattern, text)
# 对每个中文数字进行转换
for chinese_number in chinese_numbers:
# 使用 cn2an 转换中文数字为阿拉伯数字
try:
# 只转换非空的中文数字
converted_number = cn2an.cn2an(''.join(chinese_number), "smart")
patterns.append({"label": "CARDINAL", "pattern": [{"text": converted_number}]})
except ValueError as e:
# 如果转换失败(例如不是中文数字),跳过
print(f"无法转换 {chinese_number}:{e}")
print(patterns)
ruler.add_patterns(patterns)
#text = "我要定一个10月25号的上海静安康柏酒店的房间"
# 处理文本
doc = nlp(text)
# 遍历识别到的实体
for ent in doc.ents:
# 检查实体是否是一个日期或时间
#if ent.label_ == 'TIME' or ent.label_ == 'DATE':
print(f"识别到的时间或日期: {ent.label_} {ent.text}")
[{'label': 'ORG', 'pattern': [{'lower': '静安康柏酒店'}]}, {'label': 'ORG', 'pattern': [{'lower': '房间'}]}, {'label': 'CARDINAL', 'pattern': [{'text': 1}]}]
识别到的时间或日期: DATE 10月25号
识别到的时间或日期: GPE 上海静安
识别到的时间或日期: PERSON 康柏酒
感觉不对,识别的实体出现问题,不知道哪里的原因
2.1 spacy + jieba
由于spacy对于中文的支持不太友好,需要自己用jieba进行分词处理
pip install cn2an
import jieba
import spacy
from spacy.tokens import Doc
from spacy.pipeline import EntityRuler
import re
# 加载spaCy中文模型
nlp = spacy.load("zh_core_web_lg")
#nlp.add_pipe("curated_transformer", last=True)
# 创建 EntityRuler 组件
ruler = nlp.add_pipe("entity_ruler", before="ner")
# 正则:匹配中文数字后跟单位
chinese_number_with_unit_pattern = r"(\d{1,3}[万千百十零]+|\d{1,3})(元|个|吨|人|块|条|箱|斤|台|只)?" # 匹配数字和常见单位
# 正则:匹配日期(带或不带年份)
date_pattern = r"(\d{4}年)?(\d{1,2}月)?(\d{1,2}日|\d{1,2}号)?" # 匹配日期:如 "2024年10月25日" 或 "10月25日"
# 添加自定义规则到 EntityRuler
patterns = [
{"label": "ORG", "pattern": [{"lower": "静安康柏酒店"}]}, # 自定义实体:New York
{"label": "ORG", "pattern": [{"lower": "房间"}]}, # 自定义实体:OpenAI
]
#添加时间内容到解霸
def add_date_words(text):
# 合并两种日期格式的正则表达式,匹配年、月、日或号
date_pattern = r"(\d{4}年)?(\d{1,2}月)?(\d{1,2}日|\d{1,2}号)?"
dates = re.findall(date_pattern, text)
# 使用集合来存储匹配到的日期,避免重复添加
date_set = set()
# 遍历匹配到的日期格式
for date in dates:
# 过滤掉无效的日期(含有 None 的部分)
full_date = "".join(filter(None, date))
if full_date: # 只添加非空的日期格式
date_set.add(full_date)
# 将所有日期添加到 Jieba 中
for date in date_set:
jieba.add_word(date)
# 将日期添加到 patterns 列表
patterns.append({"label": "DATE", "pattern": [{"lower": full_date}]})
# 动态提取 patterns 中的实体并添加到 Jieba
for pattern in patterns:
if pattern["label"] == "DATE":
continue
entity = pattern["pattern"][0]["lower"] # 提取实体(比如 "openai")
if entity is not None:
jieba.add_word(entity) # 添加到 Jieba 词典中
# 输入文本
text = "我要定1个10月25号的上海静安康柏酒店的房间"
add_date_words(text)
ruler.add_patterns(patterns)
# 使用 Jieba 分词
words = jieba.lcut(text)
print(words)
# 使用正则提取数字和日期
numbers_with_units = re.findall(chinese_number_with_unit_pattern, text)
dates = re.findall(date_pattern, text)
# 将分词结果传给 spaCy
# 将 jieba 的分词结果和文本结合,生成一个新的 Doc 对象
doc = Doc(nlp.vocab, words=words)
# 使用 spaCy 进行实体识别
doc = nlp(doc)
# 打印结果
print("Jieba 分词 + spaCy 实体识别结果:")
for ent in doc.ents:
print(f"实体:{ent.text} | 标签:{ent.label_} | 起始位置:{ent.start_char} | 结束位置:{ent.end_char}")
['我', '要定', '1', '个', '10月25号', '的', '上海', '静安康柏酒店', '的', '房间']
Jieba 分词 + spaCy 实体识别结果:
实体:1 个 10月25号 | 标签:TIME | 起始位置:5 | 结束位置:15
实体:上海 | 标签:GPE | 起始位置:18 | 结束位置:20
实体:静安康柏酒店 | 标签:ORG | 起始位置:21 | 结束位置:27
实体:房间 | 标签:ORG | 起始位置:30 | 结束位置:32
1、上面jieba的分词还是非常好的,自己通过jieba定义了“静安康柏酒店”的实体,能够识别出来
2、TIME类型也能通过自己的方式识别,标签都是对的
3、缺点就是需要自己来定义数量、基础实体、时间等等基础数据,完善的话工作量挺大
4、优点:可以自己定义规则、设置自己的槽位并且能识别得到结果
2.3、基于规则的数量识别
import re
# 中文数字到阿拉伯数字的映射
chinese_number_map = {
"零": 0, "一": 1, "二": 2, "三": 3, "四": 4, "五": 5,
"六": 6, "七": 7, "八": 8, "九": 9, "十": 10, "百": 100,
"千": 1000, "万": 10000, "亿": 100000000,"兆":1000000000000
"壹":1,"贰":2,"叁":3,"肆":4,"伍":5,"陆":6,"柒":7,"捌":8,"玖":9,"拾":10,"佰":100,"仟":1000
}
# 函数:将中文数字转化为阿拉伯数字
def chinese_to_arabic(chinese_num):
result = 0
temp = 0 # 临时保存当前的数字
unit = 1 # 当前单位,默认从"个位"开始
# 处理中文数字中的每个字符
for char in reversed(chinese_num):
if char in chinese_number_map:
num = chinese_number_map[char]
# 如果是单位,修改当前单位
if num == 10 or num == 100 or num == 1000 or num == 10000 or num == 100000000 or num == 1000000000000:
unit = num # 更新当前单位
else:
temp += num * unit # 将当前数字乘以当前单位,并加到临时值上
else:
raise ValueError(f"无法识别的字符:{char}")
return result + temp # 最后返回结果,考虑可能有一个末尾的数字未加入
unit_normal_pattern = "个|斤|吨|人|条|箱|台|只|块|米|厘米|公里|个|天" \
"|秒|分钟|小时|天|周|月|季度|年" \
"|千米|分米|厘米|毫米|微米|纳米|米" \
"公斤|斤|千克|毫克|微克|克" \
"|元|角|分"
# 正则:匹配中文数字后跟单位
chinese_number_pattern = r"([一二三四五六七八九十百千万]+|\d+)" # 中文数字和常见单位
chinese_number_with_unit_pattern = f"{chinese_number_pattern}({unit_normal_pattern})?"
# 输入文本
text = "今天是2024年10月25日,买了五十个苹果,花了三百元,还有二十斤香蕉,五千元的支出。"
#text = "五千元。"
# 使用正则提取中文数字和单位
matches = re.findall(chinese_number_with_unit_pattern, text)
# 处理提取的中文数字和单位
number_unit_pairs = []
for match in matches:
num_str, unit = match
# 将中文数字转换为阿拉伯数字
if not num_str.isdigit(): # 如果是中文数字
num_str = str(chinese_to_arabic(num_str))
# 如果没有单位,赋值为“无单位”
unit = unit if unit else "无单位"
number_unit_pairs.append((num_str, unit))
# 打印提取的数量信息和单位
for number, unit in number_unit_pairs:
print(f"数量:{number} | 单位:{unit}")
结果
数量:2024 | 单位:无单位
数量:10 | 单位:无单位
数量:25 | 单位:无单位
数量:50 | 单位:个
数量:300 | 单位:元
数量:20 | 单位:斤
数量:5000 | 单位:元
这个规则可以和spacy + jieba结合起来使用
3、hanlp
这个功能真的很强大
pip install hanlp
from hanlp.components.mtl.multi_task_learning import MultiTaskLearning
from hanlp.components.mtl.tasks.tok.tag_tok import TaggingTokenization
from hanlp.components.mtl.tasks.ner.tag_ner import TaggingNamedEntityRecognition
HanLP= hanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH)
# 获取分词任务(以tok开头的任务都是分词任务,以细分标准为例)
tok: TaggingTokenization = HanLP['tok/fine']
ner: TaggingNamedEntityRecognition = HanLP['ner/msra']
tok.dict_combine = {'敏炜新马','柚子'}
ner.dict_whitelist = {'敏炜新马': 'FRUIT',"柚子": 'FRUIT'}
doc = HanLP("12月3号12点,我要定敏炜新马10斤,柚子5斤,打包带走", tasks=["ner/msra",'pos', 'con'])
doc.pretty_print()
print(doc)
在上面的例子里面定义了自己的实体和词典
Toke
────
12月
3号
12点
,
我
要
定
敏炜新马
10
斤
,
柚子
5
斤
,
打包
带走 NER Type
─────────
───►DATE
───►DATE
───►TIME
───►FRUIT
───►FRUIT
Toke
────
12月
3号
12点
,
我
要
定
敏炜新马
10
斤
,
柚子
5
斤
,
打包
带走 Po 3 4 5 6 7 8 9 10 11
────────────────────────────────────────────────────────────────────────
NT──┐
NT ├────────────────────────────────────────────────────────►NP ───┐
NT──┘ │
PU──────────────────────────────────────────────────────────────────┤
PN───────────────────────────────────────────────────►NP ───┐ │
VV──────────────────────────────────────────────────┐ │ │
VV──────────────────────────────────────────┐ │ ├►IP────┤
NR───────────────────►NP ───┐ │ ├►VP ───┘ │
CD──────────┐ ├►IP ───┐ ├►VP ───┘ │
M ───►CLP ──┴►QP ────►VP ───┘ │ │ ├►IP
PU──────────────────────────────────┼►IP ───┘ │
NN───────────────────►NP ───┐ │ │
CD──────────┐ ├►IP ───┘ │
M ───►CLP ──┴►QP ────►VP ───┘ │
PU──────────────────────────────────────────────────────────────────┤
VV──┐ │
VV──┴►VSB ───►VP ────────────────────────────────────────────►IP ───┘
全部都能识别出来,还提供了词句的结构化说明,下面是具体的返回信息
{
"tok/fine": [
"12月",
"3号",
"12点",
",",
"我",
"要",
"定",
"敏炜新马",
"10",
"斤",
",",
"柚子",
"5",
"斤",
",",
"打包",
"带走"
],
"pos/ctb": [
"NT",
"NT",
"NT",
"PU",
"PN",
"VV",
"VV",
"NR",
"CD",
"M",
"PU",
"NN",
"CD",
"M",
"PU",
"VV",
"VV"
],
"ner/msra": [
["12月", "DATE", 0, 1],
["3号", "DATE", 1, 2],
["12点", "TIME", 2, 3],
["敏炜新马", "FRUIT", 7, 8],
["柚子", "FRUIT", 11, 12]
],
"con": [
"TOP",
[["IP", [["NP", [["NT", ["12月"]], ["NT", ["3号"]], ["NT", ["12点"]]]], ["PU", [","]], ["IP", [["NP", [["PN", ["我"]]]], ["VP", [["VV", ["要"]], ["VP", [["VV", ["定"]], ["IP", [["IP", [["NP", [["NR", ["敏炜新马"]]]], ["VP", [["QP", [["CD", ["10"]], ["CLP", [["M", ["斤"]]]]]]]]]], ["PU", [","]], ["IP", [["NP", [["NN", ["柚子"]]]], ["VP", [["QP", [["CD", ["5"]], ["CLP", [["M", ["斤"]]]]]]]]]]]]]]]]]], ["PU", [","]], ["IP", [["VP", [["VSB", [["VV", ["打包"]], ["VV", ["带走"]]]]]]]]]]]
]