利用PaddleHub预训练模型LAC完成词法分析

Lexical Analysis of Chinese,简称 LAC,是一个联合的词法分析模型,能整体性地完成中文分词、词性标注、专名识别任务。

一、定义待预测数据

以“今天是个好日子”,“今天天气晴朗”,"下一班地铁马上就要到了"为例,展示如何使用LAC进行切词。

首先进行paddlehub的下载:

pip install paddlehub==1.7.1 -i https://pypi.tuna.tsinghua.edu.cn/simple

预训练模型对文本的要求:

test_text = [“今天是个好日子”, “天气预报说今天要下雨”, “下一班地铁马上就要到了”]

若是待预测文本存放在一个文件中,txt文档里排版成每一行是待预测句子。
(可通过cat test.txt命令来预览文本的内容)

用户想要利用LAC完成对该文件的分词,只需读入该文件,将文件内容存成list,list中每个元素是待分词句子。

with open("test.txt", 'r') as f:
    test_text = []
    for line in f:
        test_text.append(line.strip())
print(test_text)

二、加载预训练模型

LAC网络框架为BiGRU+CRF,整体框架图如下:
在这里插入图片描述
详细的可以下载该pdf进行学习。

import paddlehub as hub
module = hub.Module(name="lac")

三、预测

PaddleHub对于支持一键预测的module,可以调用module的相应预测API,完成预测功能。

results = module.lexical_analysis(texts=test_text)
for result in results:
    print(result)

输出示例:

{‘word’: [‘视频’, ‘提供’, ‘了’, ‘功能’, ‘强大’, ‘的’, ‘方法’, ‘帮助’, ‘您’, ‘证明’, ‘您’, ‘的’, ‘观点’, ‘。’, ‘当’, ‘您’, ‘单击’, ‘联机’, ‘视频’, ‘时’, ‘,’, ‘可以’, ‘在’, ‘想要’, ‘添加’, ‘的’, ‘视频’, ‘的’, ‘嵌入’, ‘代码’, ‘中’, ‘进行’, ‘粘贴’, ‘。’, ‘您’, ‘也’, ‘可以’, ‘键’, ‘入’, ‘一个’, ‘关键字’, ‘以’, ‘联机’, ‘搜索’, ‘最’, ‘适合’, ‘您’, ‘的’, ‘文档’, ‘的’, ‘视频’, ‘。’], ‘tag’: [‘n’, ‘v’, ‘u’, ‘n’, ‘a’, ‘u’, ‘n’, ‘v’, ‘r’, ‘v’, ‘r’, ‘u’, ‘n’, ‘w’, ‘v’, ‘r’, ‘v’, ‘vn’, ‘n’, ‘n’, ‘w’, ‘v’, ‘p’, ‘v’, ‘v’, ‘u’, ‘n’, ‘u’, ‘vn’, ‘n’, ‘f’, ‘v’, ‘vn’, ‘w’, ‘r’, ‘d’, ‘v’, ‘v’, ‘v’, ‘m’, ‘n’, ‘p’, ‘vn’, ‘vn’, ‘d’, ‘v’, ‘r’, ‘u’, ‘n’, ‘u’, ‘n’, ‘w’]}

词性和专名类别标签集合如下表,其中词性标签 24 个(小写字母),专名类别标签 4 个(大写字母)。这里需要说明的是,人名、地名、机构名和时间四个类别,在上表中存在两套标签(PER / LOC / ORG / TIME 和 nr / ns / nt / t),被标注为第二套标签的词,是模型判断为低置信度的人名、地名、机构名和时间词。开发者可以基于这两套标签,在四个类别的准确、召回之间做出自己的权衡。

标签含义标签含义标签含义标签含义
n普通名词f方位名词s处所名词t时间
nr人名ns地名nt机构名nw作品名
nz其他专名v普通动词vd动副词vn名动词
a形容词ad副形词an名形词d副词
m数量词q量词r代词p介词
c连词u助词xc其他虚词w标点符号
PER人名LOC地名ORG机构名TIME时间
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

啥都鼓捣的小yao

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值