【tf系列4】Bi-LSTM中文分词

最新推荐文章于 2025-04-20 22:14:35 发布

转载最新推荐文章于 2025-04-20 22:14:35 发布 · 2.3k 阅读

文章标签：

#自然语言处理 #深度学习

learning 专栏收录该内容

32 篇文章

订阅专栏

FoolNLTK是一个基于BiLSTM模型的中文自然语言处理工具包，提供高精度的分词、词性标注及实体识别等功能，并支持用户自定义词典。采用神经网络学习特征，降低人工特征工程工作量。

该项目GitHub：https://github.com/rockyzhengwu/FoolNLTK

根据该项目所述，这个中文工具包的特点有如下几点：

可能不是最快的开源中文分词，但很可能是最准的开源中文分词
基于 BiLSTM 模型训练而成
包含分词，词性标注，实体识别, 都有比较高的准确率
用户自定义词典

如该项目所述，作者使用了双向 LSTM 来构建整个模型，这也许是作者对分词性能非常有信心的原因。在中文分词上，基于神经网络的方法，往往使用「字向量 + 双向 LSTM + CRF」模型，利用神经网络来学习特征，将传统 CRF 中的人工特征工程量将到最低。

安装

pip install foolnltk

1、分词

import fool
text = "一个傻子在北京"print(fool.cut(text))
# ['一个', '傻子', '在', '北京']

2、加载用户自定义词典

词典格式格式如下，词的权重越高，词的长度越长就越越可能出现, 权重值请大于 1

难受香菇 10什么鬼 10分词工具 10北京 10北京天安门 10

加载词典

import fool

fool.load_userdict(path)

text='测试'.cut()

删除词典

fool.delete_userdict()

3. 词性标注

import fool
text = "一个傻子在北京"print(fool.pos_cut(text))

4、实体识别

import fool

text='一个傻子在北京'

words,ners=fool.analysis(text)

print(ners)

#[](5,8,'loaction'，'北京')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

macb007

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

自然语言处理之命名实体识别：Bi-LSTM技术教程

zhubeibei168的博客

04-17

1067

自然语言处理（NLP）是理解和处理自然语言的关键技术，命名实体识别（NER）是NLP中的一个重要任务。通过使用标记和数据集，我们可以训练模型来识别文本中的实体。Bi-LSTM模型是一种有效的NER模型，它能够同时考虑序列的前后文信息。通过计算F1分数，我们可以评估NER模型的性能。在命名实体识别任务中，面对实体边界模糊、实体类型多样、实体稀疏性以及长尾实体问题，我们可以通过数据不平衡处理策略、防止过拟合与欠拟合的方法，以及模型调参技巧来提升模型性能。

自然语言处理之命名实体识别：Bi-LSTM-CRF：中文分词与词性标注

zhubeibei168的博客

04-17

1356

词性标注（Part-of-Speech Tagging，POS Tagging）是自然语言处理中的一个基础任务，它为文本中的每个词附上一个表示其语法功能的词性标签。词性标签通常包括名词、动词、形容词、副词、介词、连词、代词、数词、量词、方位词、时态词、语气词、助词、叹词、拟声词等。双向LSTM（Bi-LSTM）结合了两个LSTM层，一个正向LSTM和一个反向LSTM。正向LSTM从左到右处理序列，而反向LSTM从右到左处理序列。通过这种方式，Bi-LSTM能够同时利用序列的前后文信息，从而提高模型的性能。

1 条评论您还未登录，请先登录后发表或查看评论

CRF，LSTM，最大后向匹配法实现中文分词

06-18

3种中文分词方法：最大后向匹配法，CRF，LSTM。其中LSTM又用了三种方法输入，glove向量，Word2vec向量，还有将字映射成整数再通过embedding层映射成字向量作为输入。还包含中文分词的评分脚本。

论文：State-of-the-art Chinese Word Segmentation with Bi-LSTMs

choose_c的博客

01-18

1618

论文题目：State-of-the-art Chinese Word Segmentation with Bi-LSTMs 作者：Ji Ma Kuzman Ganchev David Weiss 机构：Google AI Language 论文发表：EMNLP2018 Github：模型：文章主要是针对中文分词任务，模型十分简单，使用的双向的LSTM...

bilstm+crf中文分词_初学者 | 分词的那些事儿

weixin_39580564的博客

11-26

433

作者 yuquanle来自 AI小白入门本文谈一谈分词的那些事儿，从定义、难点到基本方法总结，文章最后推荐一些不错的实战利器。定义先来看看维基百科上分词的定义：Word segmentation is the problem of dividing a string of written language into its component words.中文分词(Chinese Wor...

LSTM中文分词

sinat_41715275的博客

09-05

1776

预处理及训练过程：代码： # -*- coding:utf-8 -*- from tensorflow.python.keras.models import Model, load_model from tensorflow.python.keras.layers import Input, Dense, Dropout, LSTM, Embedding, TimeDistribu...

利用LSTM自动生成中文文本

qq_20373723的博客

11-19

2415

最近一直对自动生成中文文本特别着迷，这里我记录一下我的探索的过程。风过留痕，雁过拔毛。如果觉得好，给个赞吧参考链接： https://www.analyticsvidhya.com/blog/2018/03/text-generation-using-python-nlp/ https://github.com/pranjal52/text_generators 关于LSTM的理论我就不废话了，我自己也是查着资料了解的下面是我用的代码，我把训练和愚蠢的分开了，这里给你们贴一下。数据：story.tx

自然语言处理之命名实体识别：Bi-LSTM-CRF详解

最新发布

zhubeibei168的博客

04-20

887

CRF是一个无向图模型，其中节点表示随机变量，边表示变量之间的依赖关系。在序列标注任务中，每个节点代表一个输入序列中的元素，而边则表示元素之间的标签依赖。

python分词训练_CRF算法学习——自己动手实现Bi-LSTM+CRF分词（python）

weixin_42400643的博客

12-30

1469

意图识别 <= Bi-LSTM+CRF <= 先懂CRF <= 先懂HMM <= 先懂EM终于到这一步了，这一次要用python写了，使用tensorflow去写。关于tensorflow的使用不是我的重点。相关代码还是在我的GitHub上。题外话，idea可以安装一个python插件，然后设置一下python编译器，这样就可以在项目里既能运行java又能运行python了...

自然语言处理之命名实体识别：Bi-LSTM-CRF模型架构与原理

zhubeibei168的博客

04-17

998

条件随机场(Conditional Random Field, CRF)是一种用于建模序列数据的统计模型，尤其适用于序列标注和序列分类问题。在命名实体识别(NER)任务中，CRF能够捕捉序列中标签之间的依赖关系，从而提高模型的预测准确性。CRF是一种概率模型，它定义了给定输入序列Xx1x2xnXx1x2...xn时，输出序列Yy1y2ynYy1y2...yn的条件概率分布。

rnn-tutorial-gru-lstm-master分词

03-12

人工智能深度学习，中文分词代码，准确无误。rnn-tutorial-gru-lstm-master分词

Python-使用keras实现的基于BiLSTMCRF的中文分词词性标注

08-10

使用keras实现的基于Bi-LSTM CRF的中文分词 词性标注

使用keras搭建BiLSTM对人民日报语料进行分词

Liu Ruilun的博客

03-24

2393

代码移步我的GITHUB——PeoplesDailyNER 其中的README已经详细说明，若有疑问请留言。

小袁讲长短期记忆网络（LSTM）

maisuiqianxun的博客

12-03

1633

一，什么是长短期 LSTM全名“ Long Short-term Memory”，中文名翻译为长短期记忆网络。小袁我刚接触这个网络的时候，一度以为长短期记忆网络既可以建模序列问题中的长期时间依赖，又可以有效地捕捉到序列数据的短期时间依赖，因而被命名为长短期记忆网络。事实上这样理解对也不对，对在LSTM确实既有捕捉序列数据的长的时间依赖，又有捕捉短的时间依赖的特性上。不对在LSTM的特性并不像我们...

基于LSTM的中文文本多分类实战（详细注释）

李姆斯的博客

01-30

7098

使用深度学习中的LSTM（Long Short-Term Memory）长短期记忆网络，来尝试一下中文文本多分类,LSTM它是一种时间循环神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。数据集 ChineseNlpCorpus的online_shopping_10_cats 10 个类别，共 6 万多条评论数据，正、负向评论各约 3 万条，包括书籍、平板、手机、水果、洗发水、热...

如何实现BiLSTM实现中文分词？与jieba、LSTM进行对比如何？【文档型详解】