
自然语言处理
文章平均质量分 67
nlp
逍遥_yjz
主要从事文本处理,实体识别方向;攻读自然语言处理,深度学习。
展开
-
实体识别理论
1.实体识别问题探究:摘要:融合词典和统计学习的方法,对原新闻数据进行分词、词性标注,提高准确率,最终实现实体识别。1.对数据进行分词:使用4tag 标签数据 B(词头)、M(词中)、E(词尾)S(非实体部分)。根据训练好的数据,训练出模型,模型自动识别词位置进行分词。(新思路:使用旧数据训练出的模型,对新闻数据进行分词;手动修改分词错误的标签,整合修改好的数据当做训练数据,再训练模型,继续对新的原创 2018-01-19 17:01:06 · 93 阅读 · 1 评论 -
基于CRF++词性标注是单个还是成语
用CRF++识别实体,训练集有词、词性。个人标注B、M、E、S。训练集用单个词和词性,还是用成语(多个)和词性作为训练集那?1.单个词包含所有东西(符号什么的),如果识别出一句话里面的人名,地名,组织名。起码是一段话,也会标注识别出各个实体。2.如果是成语,其实更省事,但是也应该加上符号。原创 2017-03-28 17:31:39 · 522 阅读 · 0 评论 -
SnowNLP
#-*- coding:utf-8 -*-from snownlp import SnowNLPimport sysreload(sys)sys.setdefaultencoding('utf-8')#unicode的编码转换成中文的listdef testUnicodeToChineseList(all_symptom): str_symptom = str(all_s原创 2017-07-12 21:21:49 · 786 阅读 · 0 评论 -
PaddleNLP开源UTC通用文本分类技术,斩获ZeroCLUE、FewCLUE双榜第一
百度构建了“任务架构统一、通用能力共享”的通用文本分类技术UTC,其实现了良好的零/少样本迁移性能。原创 2023-01-16 20:02:30 · 1842 阅读 · 1 评论 -
python word2vec的使用
引用块内容#-*- coding:utf-8 -*-import sysfrom gensim.models import word2vecimport gensimimport codecsfrom textrank4zh import TextRank4Keyword, TextRank4Sentencefrom nltk.tokenize import WordP...原创 2018-06-27 10:45:12 · 2241 阅读 · 0 评论 -
linux 上安装CRF++ 、问题和代码
1.在Linus 上安装crf++1)比较常用的工具就是CRF++。官网地址为:https://taku910.github.io/crfpp/ 选择CRF+±0.58.tar.gz2)tar zxvf CRF+±0.58.tar.gz 进入CRF+±0.58目录下3) ./configure4)make5)su6)make install注意:这里用crf++ 工具跑出的数...原创 2018-12-19 21:13:52 · 865 阅读 · 2 评论