pyltp引入外部词典

最新推荐文章于 2024-07-16 11:23:46 发布

原创

最新推荐文章于 2024-07-16 11:23:46 发布

· 3.1k 阅读

·

0

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

大家好，今天跟大家介绍一下在文本学习过程中，为什么要引入外部词典以及引入外部词典之后又什么变化。

为什么引入外部词典
怎么引入（外部词典的配置）
一、为什么引入？
pyltp分词支持用户使用自定义词典，分词外部词典本身是一个文本文件（*.txt）。每行指定一个词，编码必须为UTF-8。（保存文件的时候，设置编码为UTF-8）。

代码注意以下几点：
1、改变模型文件路径！
2、外部词典的加载路径代码。（如下图）

完整代码如下：

# -*- coding: utf-8 -*-
import os
from pyltp import Segmentor, Postagger
# 分词
LTP_DATA_DIR = 'E:\Python\pyltp\ltp\ltp\ltp_data'  # ltp模型目录的路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径，模型名称为`cws.model`
lexicon_path = os.path.join(LTP_DATA_DIR, 'E:\Python\pyltp\ltp\ltp\ltp_data\lexicon.txt')  # 参数lexicon是自定义词典的文件路径
segmentor = Segmentor()
segmentor.load_with_lexicon(cws_model_path, lexicon_path)
sent = '据韩联社12月28日反映，美国防部发言人杰夫·莫莱尔27日表示，美国防部长盖茨将于2011年1月14日访问韩国。2010年2月28日中国刘军报道'
words = segmentor.segment(sent)  # 分词
# 词性标注
pos_model_path = os.path.join(LTP_DATA_DIR,

最低0.47元/天解锁文章

登高博见凌云志

博客等级

码龄8年

21
原创

43
点赞

231
收藏

33
粉丝

关注

私信

热门文章

分类专栏

自然语言处理 9篇

展开全部收起

上一篇：: pyltp安装学习

下一篇：: 命名实体的识别

最新评论

Gephi可视化人物关系图
remmush: 您好，可以提供一下数据集吗，谢谢！
利用词向量来分析人物关系
优快云-Ada助手: 非常感谢优快云博主分享《利用词向量来分析人物关系》这篇博客，这种利用自然语言处理技术来研究人物关系的方法非常实用，同时也是当前热门的技术研究方向之一。我觉得下一篇博客可以继续探讨自然语言处理技术在社交网络分析中的应用，例如如何通过分析微博、微信等社交媒体上的文本数据来发现和分析用户之间的关系。这样的技术文章对其他用户也会非常有帮助，期待更多精彩的分享！为了方便博主创作，提高生产力，优快云上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.youkuaiyun.com/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.youkuaiyun.com/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
依存句法分析
qq_43756194: 你好，print ('arcs 的结果:','\t'.join("%d:%s" % (arc.head, arc.relation) for arc in arcs))这一句中显示报错AttributeError: 'tuple' object has no attribute 'head'，大佬应该如何更改呢？
pyltp引入外部词典
留声机疯狂附件: 遇到了同样的问题，加载外部词典后分词还是跟不加载一样，是为什么呢
命名实体的识别
是子清呐: 博主分析的数据可以发一下嘛？

大家在看

最新文章

目录

展开全部

收起

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。