spacy、jieba、hanlp实体识别技术选型经历

        最近在研究数字员工中文智能实体识别相关的内容,涉及到了技术选型,最开始是从rasa开始研究,rasa提供了基于spacy、regex(规则)、mitie等多种类型的实体抽取,但是发现这些对于英文支持好,对于中文存在很多问题,为此开始自己摸索所有对于实体识别相关的技术,并且通过测试来判断是否适合。

1、基于transform模型的实体识别

1.1 bert-base-chinese

from transformers import BertTokenizer, BertForTokenClassification
from transformers import pipeline
bert_tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
entity_model = BertForTokenClassification.from_pretrained('bert-base-chinese')
nlp = pipeline('ner', model=entity_model, tokenizer=bert_tokenizer)

def process(message, **kwargs):
    ner_results = nlp(message)
    entities = [{"start": result["start"], "end": result["end"], "value": result["word"], "entity": result["entity"]} for result in ner_results]
    return entities

print(process("我要定一个10月25日的上海康柏酒店的房间"))

得到了如下的结果

Some weights of BertForTokenClassification were not initialized from the model checkpoint at bert-base-chinese and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
[{'start': None, 'end': None, 'value': '我', 'entity': 'LABEL_1'}, {'start': None, 'end': None, 'value': '要', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '定', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '一', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '个', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '10', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '月', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '25', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '日', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '的', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '上', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '海', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '康', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '柏', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '酒', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '店', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '的', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '房', 'entity': 'LABEL_0'}, {'start': None, 'end': None, 'value': '间', 'entity': 'LABEL_0'}]

全部是分开的

1.2 百度nghuyong/ernie-3.0-base-zh

# 百度
from transformers import BertTokenizer, BertForSequenceClassification
tokenizer = BertTokenizer.from_pretrained("nghuyong/ernie-3.0-base-zh")
model = BertForSequenceClassification.from_pretrained("nghuyong/ernie-3.0-base-zh")

nlp = pipeline('ner', model=entity_model, tokenizer=bert_tokenizer)

message = "我要定一个10月25日的上海康柏酒店的房间"
ner_results = nlp(message)
print(ner_results)
[{'entity': 'LABEL_1', 'score': 0.5509777, 'index': 1, 'word': '我', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7085775, 'index': 2, 'word': '要', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6702529, 'index': 3, 'word': '定', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6158042, 'index': 4, 'word': '一', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7743202, 'index': 5, 'word': '个', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6544865, 'index': 6, 'word': '10', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7507361, 'index': 7, 'word': '月', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7569169, 'index': 8, 'word': '25', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.65982026, 'index': 9, 'word': '日', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6651067, 'index': 10, 'word': '的', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.545048, 'index': 11, 'word': '上', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.53704095, 'index': 12, 'word': '海', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.57766277, 'index': 13, 'word': '康', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.66884404, 'index': 14, 'word': '柏', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.5223569, 'index': 15, 'word': '酒', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6932911, 'index': 16, 'word': '店', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.5868039, 'index': 17, 'word': '的', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.5755562, 'index': 18, 'word': '房', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6146511, 'index': 19, 'word': '间', 'start': None, 'end': None}]

1.3 Google hfl/chinese-electra-180g-base-discriminator

# Google 
from transformers import ElectraTokenizer, ElectraForTokenClassification
tokenizer = ElectraTokenizer.from_pretrained("hfl/chinese-electra-180g-base-discriminator")
model = ElectraForTokenClassification.from_pretrained("hfl/chinese-electra-180g-base-discriminator")
nlp = pipeline('ner', model=entity_model, tokenizer=bert_tokenizer)

message = "我要定一个10月25日的上海康柏酒店的房间"
ner_results = nlp(message)
print(ner_results)
[{'entity': 'LABEL_1', 'score': 0.5509777, 'index': 1, 'word': '我', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7085775, 'index': 2, 'word': '要', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6702529, 'index': 3, 'word': '定', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6158042, 'index': 4, 'word': '一', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7743202, 'index': 5, 'word': '个', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6544865, 'index': 6, 'word': '10', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7507361, 'index': 7, 'word': '月', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7569169, 'index': 8, 'word': '25', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.65982026, 'index': 9, 'word': '日', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6651067, 'index': 10, 'word': '的', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.545048, 'index': 11, 'word': '上', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.53704095, 'index': 12, 'word': '海', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.57766277, 'index': 13, 'word': '康', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.66884404, 'index': 14, 'word': '柏', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.5223569, 'index': 15, 'word': '酒', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6932911, 'index': 16, 'word': '店', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.5868039, 'index': 17, 'word': '的', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.5755562, 'index': 18, 'word': '房', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6146511, 'index': 19, 'word': '间', 'start': None, 'end': None}]

1.4 hfl/chinese-macbert-large 

from transformers import BertTokenizer, BertForTokenClassification
tokenizer = BertTokenizer.from_pretrained("hfl/chinese-macbert-large")
model = BertForTokenClassification.from_pretrained("hfl/chinese-macbert-large")

nlp = pipeline('ner', model=entity_model, tokenizer=bert_tokenizer)
message = "我要定一个10月25日的上海康柏酒店的房间"
ner_results = nlp(message)
print(ner_results)
[{'entity': 'LABEL_1', 'score': 0.5509777, 'index': 1, 'word': '我', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7085775, 'index': 2, 'word': '要', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6702529, 'index': 3, 'word': '定', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6158042, 'index': 4, 'word': '一', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7743202, 'index': 5, 'word': '个', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6544865, 'index': 6, 'word': '10', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7507361, 'index': 7, 'word': '月', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.7569169, 'index': 8, 'word': '25', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.65982026, 'index': 9, 'word': '日', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6651067, 'index': 10, 'word': '的', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.545048, 'index': 11, 'word': '上', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.53704095, 'index': 12, 'word': '海', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.57766277, 'index': 13, 'word': '康', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.66884404, 'index': 14, 'word': '柏', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.5223569, 'index': 15, 'word': '酒', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6932911, 'index': 16, 'word': '店', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.5868039, 'index': 17, 'word': '的', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.5755562, 'index': 18, 'word': '房', 'start': None, 'end': None}, {'entity': 'LABEL_0', 'score': 0.6146511, 'index': 19, 'word': '间', 'start': None, 'end': None}]

发现上面的全部都是基于单个字的,查询后说合并的话要自己更具字的类型进行处理,没法用,自能开始研究其它的非 transform的模型

2、使用 spacy 进行识别

2.2 spacy 的 zh_core_web_lg 模型

在使用 zh_core_web_lg 模型之前,需要自己下载安装一下,spacy 不会自动下载的

import spacy
 
# 加载中文模型
nlp = spacy.load('zh_core_web_lg')
 
# 测试文本
text = "明天下午5点会议结束。"
text = "我要定一个10月25号的上海静安康柏酒店的房间"
# 处理文本
doc = nlp(text)
 
# 遍历识别到的实体
for ent in doc.ents:
    # 检查实体是否是一个日期或时间
    if ent.label_ == 'TIME' or ent.label_ == 'DATE':
        print(f"识别到的时间或日期: {ent.text}")
识别到的时间或日期: 10月25号

 这个模型可以自动识别时间格式

来个复杂一点的

import spacy
import cn2an  # 用于将中文数字转换为阿拉伯数字

# 加载中文模型
nlp = spacy.load('zh_core_web_lg')

ruler = nlp.add_pipe("entity_ruler", before="ner")
nlp.remove_pipe("entity_ruler")
ruler = nlp.add_pipe("entity_ruler", before="ner")
system_patterns =  [
    #{"label": "DATE", "pattern": [{"text": "10月25日"}]},
    {"label": "QUANTITY", "pattern": [{"like_num": True}, {"text": "个"}]},  # 识别 "10个"
    {"label": "MONEY", "pattern": [{"like_num": True}, {"text": "元"}]},     # 识别 "100元"
    {"label": "QUANTITY", "pattern": [{"like_num": True}, {"text": "只"}]},  # 识别 "5只"
    {"label": "QUANTITY", "pattern": [{"like_num": True}, {"text": "件"}]},  # 识别 "3件"
]
#ruler.add_patterns(system_patterns)

# 添加自定义规则到 EntityRuler
patterns = [   
    {"label": "ORG", "pattern": [{"lower": "静安康柏酒店"}]},  # 自定义实体:New York
    {"label": "ORG", "pattern": [{"lower": "房间"}]},    # 自定义实体:OpenAI
]

#text = "我要定一个10月25号的上海静安康柏酒,我有二百三十块钱,七千五百零五元,四十元的折扣。"
text = "我要定一个10月25号的上海静安康柏酒。"

# 正则匹配中文数字(例如:二百三十,七千五百零五,四十)
chinese_number_pattern = r"(\d{1,3}[万千百十])|([一二三四五六七八九十零百千万])+"  # 匹配中文数字

# 使用正则表达式提取中文数字部分
chinese_numbers = re.findall(chinese_number_pattern, text)

# 对每个中文数字进行转换
for chinese_number in chinese_numbers:
    # 使用 cn2an 转换中文数字为阿拉伯数字
    try:
        # 只转换非空的中文数字
        converted_number = cn2an.cn2an(''.join(chinese_number), "smart")
        patterns.append({"label": "CARDINAL", "pattern": [{"text": converted_number}]})
    except ValueError as e:
        # 如果转换失败(例如不是中文数字),跳过
        print(f"无法转换 {chinese_number}:{e}")

print(patterns)
ruler.add_patterns(patterns)

#text = "我要定一个10月25号的上海静安康柏酒店的房间"
# 处理文本
doc = nlp(text)
# 遍历识别到的实体
for ent in doc.ents:
    # 检查实体是否是一个日期或时间
    #if ent.label_ == 'TIME' or ent.label_ == 'DATE':
    print(f"识别到的时间或日期: {ent.label_} {ent.text}")
[{'label': 'ORG', 'pattern': [{'lower': '静安康柏酒店'}]}, {'label': 'ORG', 'pattern': [{'lower': '房间'}]}, {'label': 'CARDINAL', 'pattern': [{'text': 1}]}]
识别到的时间或日期: DATE 10月25号
识别到的时间或日期: GPE 上海静安
识别到的时间或日期: PERSON 康柏酒

感觉不对,识别的实体出现问题,不知道哪里的原因 

2.1 spacy + jieba 

由于spacy对于中文的支持不太友好,需要自己用jieba进行分词处理

pip install cn2an
import jieba
import spacy
from spacy.tokens import Doc
from spacy.pipeline import EntityRuler
import re

# 加载spaCy中文模型
nlp = spacy.load("zh_core_web_lg")

#nlp.add_pipe("curated_transformer", last=True)
# 创建 EntityRuler 组件
ruler = nlp.add_pipe("entity_ruler", before="ner")

# 正则:匹配中文数字后跟单位
chinese_number_with_unit_pattern = r"(\d{1,3}[万千百十零]+|\d{1,3})(元|个|吨|人|块|条|箱|斤|台|只)?"  # 匹配数字和常见单位
# 正则:匹配日期(带或不带年份)
date_pattern = r"(\d{4}年)?(\d{1,2}月)?(\d{1,2}日|\d{1,2}号)?"  # 匹配日期:如 "2024年10月25日" 或 "10月25日"

# 添加自定义规则到 EntityRuler
patterns = [   
    {"label": "ORG", "pattern": [{"lower": "静安康柏酒店"}]},  # 自定义实体:New York
    {"label": "ORG", "pattern": [{"lower": "房间"}]},    # 自定义实体:OpenAI
]

#添加时间内容到解霸
def add_date_words(text):
    # 合并两种日期格式的正则表达式,匹配年、月、日或号
    date_pattern = r"(\d{4}年)?(\d{1,2}月)?(\d{1,2}日|\d{1,2}号)?"  
    dates = re.findall(date_pattern, text)

    # 使用集合来存储匹配到的日期,避免重复添加
    date_set = set()

    # 遍历匹配到的日期格式
    for date in dates:
        # 过滤掉无效的日期(含有 None 的部分)
        full_date = "".join(filter(None, date))
        if full_date:  # 只添加非空的日期格式
            date_set.add(full_date)

    # 将所有日期添加到 Jieba 中
    for date in date_set:
        jieba.add_word(date)
        # 将日期添加到 patterns 列表
        patterns.append({"label": "DATE", "pattern": [{"lower": full_date}]})

# 动态提取 patterns 中的实体并添加到 Jieba
for pattern in patterns:
    if pattern["label"] == "DATE":
        continue
    entity = pattern["pattern"][0]["lower"]  # 提取实体(比如 "openai")
    if entity is not None:
        jieba.add_word(entity)  # 添加到 Jieba 词典中

# 输入文本
text = "我要定1个10月25号的上海静安康柏酒店的房间"
add_date_words(text)

ruler.add_patterns(patterns)

# 使用 Jieba 分词
words = jieba.lcut(text)
print(words)

# 使用正则提取数字和日期
numbers_with_units = re.findall(chinese_number_with_unit_pattern, text)
dates = re.findall(date_pattern, text)

# 将分词结果传给 spaCy
# 将 jieba 的分词结果和文本结合,生成一个新的 Doc 对象
doc = Doc(nlp.vocab, words=words)

# 使用 spaCy 进行实体识别
doc = nlp(doc)

# 打印结果
print("Jieba 分词 + spaCy 实体识别结果:")
for ent in doc.ents:
    print(f"实体:{ent.text} | 标签:{ent.label_} | 起始位置:{ent.start_char} | 结束位置:{ent.end_char}")
['我', '要定', '1', '个', '10月25号', '的', '上海', '静安康柏酒店', '的', '房间']
Jieba 分词 + spaCy 实体识别结果:
实体:1 个 10月25号 | 标签:TIME | 起始位置:5 | 结束位置:15
实体:上海 | 标签:GPE | 起始位置:18 | 结束位置:20
实体:静安康柏酒店 | 标签:ORG | 起始位置:21 | 结束位置:27
实体:房间 | 标签:ORG | 起始位置:30 | 结束位置:32

1、上面jieba的分词还是非常好的,自己通过jieba定义了“静安康柏酒店”的实体,能够识别出来

2、TIME类型也能通过自己的方式识别,标签都是对的

3、缺点就是需要自己来定义数量、基础实体、时间等等基础数据,完善的话工作量挺大

4、优点:可以自己定义规则、设置自己的槽位并且能识别得到结果

2.3、基于规则的数量识别

import re

# 中文数字到阿拉伯数字的映射
chinese_number_map = {
    "零": 0, "一": 1, "二": 2, "三": 3, "四": 4, "五": 5,
    "六": 6, "七": 7, "八": 8, "九": 9, "十": 10, "百": 100,
    "千": 1000, "万": 10000, "亿": 100000000,"兆":1000000000000
    "壹":1,"贰":2,"叁":3,"肆":4,"伍":5,"陆":6,"柒":7,"捌":8,"玖":9,"拾":10,"佰":100,"仟":1000
}

# 函数:将中文数字转化为阿拉伯数字
def chinese_to_arabic(chinese_num):
    result = 0
    temp = 0  # 临时保存当前的数字
    unit = 1  # 当前单位,默认从"个位"开始
    # 处理中文数字中的每个字符
    for char in reversed(chinese_num):
        if char in chinese_number_map:
            num = chinese_number_map[char]            
            # 如果是单位,修改当前单位
            if num == 10 or num == 100 or num == 1000 or num == 10000 or num == 100000000 or num == 1000000000000:
                unit = num  # 更新当前单位
            else:
                temp += num * unit  # 将当前数字乘以当前单位,并加到临时值上
        else:
            raise ValueError(f"无法识别的字符:{char}")
    return result + temp  # 最后返回结果,考虑可能有一个末尾的数字未加入

unit_normal_pattern = "个|斤|吨|人|条|箱|台|只|块|米|厘米|公里|个|天" \
                    "|秒|分钟|小时|天|周|月|季度|年" \
                    "|千米|分米|厘米|毫米|微米|纳米|米" \
                    "公斤|斤|千克|毫克|微克|克" \
                    "|元|角|分"
    
# 正则:匹配中文数字后跟单位
chinese_number_pattern = r"([一二三四五六七八九十百千万]+|\d+)"  # 中文数字和常见单位
chinese_number_with_unit_pattern = f"{chinese_number_pattern}({unit_normal_pattern})?"

# 输入文本
text = "今天是2024年10月25日,买了五十个苹果,花了三百元,还有二十斤香蕉,五千元的支出。"
#text = "五千元。"

# 使用正则提取中文数字和单位
matches = re.findall(chinese_number_with_unit_pattern, text)

# 处理提取的中文数字和单位
number_unit_pairs = []

for match in matches:
    num_str, unit = match
    # 将中文数字转换为阿拉伯数字
    if not num_str.isdigit():  # 如果是中文数字
        num_str = str(chinese_to_arabic(num_str))
    # 如果没有单位,赋值为“无单位”
    unit = unit if unit else "无单位"
    number_unit_pairs.append((num_str, unit))

# 打印提取的数量信息和单位
for number, unit in number_unit_pairs:
    print(f"数量:{number} | 单位:{unit}")

结果

数量:2024 | 单位:无单位
数量:10 | 单位:无单位
数量:25 | 单位:无单位
数量:50 | 单位:个
数量:300 | 单位:元
数量:20 | 单位:斤
数量:5000 | 单位:元

这个规则可以和spacy + jieba结合起来使用

3、hanlp

这个功能真的很强大

pip install hanlp
from hanlp.components.mtl.multi_task_learning import MultiTaskLearning
from hanlp.components.mtl.tasks.tok.tag_tok import TaggingTokenization
from hanlp.components.mtl.tasks.ner.tag_ner import TaggingNamedEntityRecognition
HanLP= hanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH)
# 获取分词任务(以tok开头的任务都是分词任务,以细分标准为例)
tok: TaggingTokenization = HanLP['tok/fine']
ner: TaggingNamedEntityRecognition = HanLP['ner/msra']

tok.dict_combine = {'敏炜新马','柚子'}
ner.dict_whitelist = {'敏炜新马': 'FRUIT',"柚子": 'FRUIT'}
doc = HanLP("12月3号12点,我要定敏炜新马10斤,柚子5斤,打包带走", tasks=["ner/msra",'pos', 'con'])
doc.pretty_print()
print(doc)

在上面的例子里面定义了自己的实体和词典

Toke 
──── 
12月  
3号   
12点  
,    
我    
要    
定    
敏炜新马 
10   
斤    
,    
柚子   
5    
斤    
,    
打包   
带走   	NER Type  
───────── 
───►DATE  
───►DATE  
───►TIME  
          
          
          
          
───►FRUIT 
          
          
          
───►FRUIT 
          
          
          
          
          	Toke 
──── 
12月  
3号   
12点  
,    
我    
要    
定    
敏炜新马 
10   
斤    
,    
柚子   
5    
斤    
,    
打包   
带走   	Po    3       4       5       6       7       8       9       10      11
────────────────────────────────────────────────────────────────────────
NT──┐                                                                   
NT  ├────────────────────────────────────────────────────────►NP ───┐   
NT──┘                                                               │   
PU──────────────────────────────────────────────────────────────────┤   
PN───────────────────────────────────────────────────►NP ───┐       │   
VV──────────────────────────────────────────────────┐       │       │   
VV──────────────────────────────────────────┐       │       ├►IP────┤   
NR───────────────────►NP ───┐               │       ├►VP ───┘       │   
CD──────────┐               ├►IP ───┐       ├►VP ───┘               │   
M ───►CLP ──┴►QP ────►VP ───┘       │       │                       ├►IP
PU──────────────────────────────────┼►IP ───┘                       │   
NN───────────────────►NP ───┐       │                               │   
CD──────────┐               ├►IP ───┘                               │   
M ───►CLP ──┴►QP ────►VP ───┘                                       │   
PU──────────────────────────────────────────────────────────────────┤   
VV──┐                                                               │   
VV──┴►VSB ───►VP ────────────────────────────────────────────►IP ───┘   

全部都能识别出来,还提供了词句的结构化说明,下面是具体的返回信息

{
  "tok/fine": [
    "12月",
    "3号",
    "12点",
    ",",
    "我",
    "要",
    "定",
    "敏炜新马",
    "10",
    "斤",
    ",",
    "柚子",
    "5",
    "斤",
    ",",
    "打包",
    "带走"
  ],
  "pos/ctb": [
    "NT",
    "NT",
    "NT",
    "PU",
    "PN",
    "VV",
    "VV",
    "NR",
    "CD",
    "M",
    "PU",
    "NN",
    "CD",
    "M",
    "PU",
    "VV",
    "VV"
  ],
  "ner/msra": [
    ["12月", "DATE", 0, 1],
    ["3号", "DATE", 1, 2],
    ["12点", "TIME", 2, 3],
    ["敏炜新马", "FRUIT", 7, 8],
    ["柚子", "FRUIT", 11, 12]
  ],
  "con": [
    "TOP",
    [["IP", [["NP", [["NT", ["12月"]], ["NT", ["3号"]], ["NT", ["12点"]]]], ["PU", [","]], ["IP", [["NP", [["PN", ["我"]]]], ["VP", [["VV", ["要"]], ["VP", [["VV", ["定"]], ["IP", [["IP", [["NP", [["NR", ["敏炜新马"]]]], ["VP", [["QP", [["CD", ["10"]], ["CLP", [["M", ["斤"]]]]]]]]]], ["PU", [","]], ["IP", [["NP", [["NN", ["柚子"]]]], ["VP", [["QP", [["CD", ["5"]], ["CLP", [["M", ["斤"]]]]]]]]]]]]]]]]]], ["PU", [","]], ["IP", [["VP", [["VSB", [["VV", ["打包"]], ["VV", ["带走"]]]]]]]]]]]
  ]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

livepy

老码农,赋闲在家要吃饭

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值