
NLP
Waldenz
技术改变世界
展开
-
pyhanlp 自定义词库添加带空格的词
对于带空格的自定义词无法再词库文件中添加,因为词库文件中一个词条的格式为“word pos frequency”, 即“词 词性 词频”,举例:“单身狗 n 1024”,其中是以空格作为分隔,所以如果词带空格,引起格式错误。解决方法: 通过代码动态添加from pyhanlp import *text = "Joseph Robinette Biden and his family moved into the White House" print(HanLP.segment(text)).原创 2021-06-24 15:55:36 · 553 阅读 · 0 评论 -
nltk 下载失败 nltk download errno 61 问题详解
问题现象安装nltk后,执行nltk.download() 弹出界面弹出如下错误;或者 只想下载stopwords语料库时,提示错误如下: error 61 connection refused问题原因无法建立到raw.githubusercontent.com 服务器的连接问题,可能dn没有解析到该域名,需要在host中添加ip映射;Macsudo vi /etc/hosts1.输入本机密码后,打开hosts文件,输入i进入编辑模式;2. 复制如下语句# g.原创 2021-01-24 22:31:35 · 2599 阅读 · 9 评论 -
Hanlp词性表
a 形容词ad 副形词ag 形容词性语素al 形容词性惯用语an 名形词b 区别词begin仅用于始##始bg 区别语素bl 区别词性惯用语c 连词cc 并列连词d 副词dg 辄,俱,复之类的副词dl 连语e 叹词end 仅用于终##终f 方位词g 学术词汇...原创 2019-07-30 15:40:36 · 1450 阅读 · 0 评论 -
pyhanlp安装使用详解
安装githubhttps://github.com/hankcs/pyhanlpconda install -c conda-forge jpype1pip install pyhanlp使用命令 hanlp segment 进入交互分词模式,会从github上自动下载data数据,会比较慢。可以停止命令,然后手动下载data-for-1.7.4.zip 大约640M 到pyn...原创 2019-07-30 15:38:55 · 8649 阅读 · 2 评论 -
pyltp 完整Demo源码
import sys, os# ROOTDIR = os.path.join(os.path.dirname(__file__), os.pardir)ROOTDIR = os.path.join(os.path.dirname(__file__))sys.path = [os.path.join(ROOTDIR, "lib")] + sys.path# Set your ow...原创 2019-01-08 13:44:16 · 955 阅读 · 0 评论 -
LTP 命名实体识别标注集
命名实体识别标注集NE识别模块的标注结果采用O-S-B-I-E标注形式,其含义为标记 含义 O 这个词不是NE S 这个词单独构成一个NE B 这个词为一个NE的开始 I 这个词为一个NE的中间 E 这个词位一个NE的结尾 LTP中的NE 模块识别三种NE,分别如下:标记 含义 Nh 人名 Ni 机构...原创 2019-01-08 11:45:21 · 5590 阅读 · 0 评论 -
LTP 语义依存分析
语义依存语义依存分析 (Semantic Dependency Parsing, SDP),分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。 使用语义依存刻画句子语义,好处在于不需要去抽象词汇本身,而是通过词汇所承受的语义框架来描述该词汇,而论元的数目相对词汇来说数量总是少了很多的。语义依存分析目标是跨越句子表层句法结构的束缚,直接获取深层的语义信息。 例如以下三个句子,用不同...原创 2019-01-08 11:34:04 · 8416 阅读 · 3 评论 -
LTP 依存句法分析
依存句法依存语法 (Dependency Parsing, DP) 通过分析语言单位内成分之间的依存关系揭示其句法结构。 直观来讲,依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的关系。#依存句法分析模型parser = Parser()parser.load(os.path.join(MODELDIR, "parser.model"))arcs...原创 2019-01-07 17:25:33 · 11643 阅读 · 11 评论 -
LTP 词性标注
Tag Description Examplea adjective:形容词 美丽 b other noun-modifier:其他的修饰名词 大型, 西式 c conjunction:连词 ...原创 2019-01-07 16:19:09 · 2871 阅读 · 1 评论 -
python LTP 安装 failed building wheel for pyltp
LTP(Language Technology Platform)语言技术平台。LTP提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。主页 GitHub pyltpwin10 pip直接安装pyltp时的各种报错,Faild building wheel for pyltp 或者Running setup.py bdist_wh...原创 2019-01-07 15:20:35 · 4641 阅读 · 0 评论 -
sklearn 功能和包括的算法
sklearn(Scikit learn)是基于numpy和scipy的一个机器学习算法库,设计的非常优雅,它让我们能够使用同样的接口来实现所有不同的算法调用。基本功能分为六大部分: 分类:支持向量机(SVM)、最近邻、逻辑回归、随机森林、决策树以及多层感知器(MLP)神经网络 回归:支持向量回归(SVR) 聚类:K-均值聚类 数据降维、 模型选择和...原创 2018-12-07 19:05:42 · 1382 阅读 · 0 评论 -
Flask jieba分词的完整api,swaggerUi展示切词文档
需要安装的包 flask, flask-swagger, flask-swagger-ui, jiebaFlask+swagger ui 直接上源码SegmentAPI.py源码。 # pip install flask-swagger-ui# pip install flask_swaggerfrom flask import Flask, jsonify, abort, ...原创 2018-06-19 17:44:14 · 1481 阅读 · 0 评论 -
Jieba分词词性标注以及词性说明
import jiebaimport jieba.analyseimport jieba.possegdef dosegment_all(sentence): ''' 带词性标注,对句子进行分词,不排除停词等 :param sentence:输入字符 :return: ''' sentence_seged = jieba.posseg.cu...原创 2018-06-08 10:55:52 · 60988 阅读 · 5 评论 -
sklearn预处理函数transform和fit_transform
相同:都是对数据进行统一化处理,将数据缩放(映射)到某个固定区间,归一化,正则化;fit_transform()函数: 先拟合数据,找到数据的整体指标,如均值、方差、最大值最小值等等,将其转化为标准形式;transform()函数: 通过找中心和缩放等实现标准化;结论:必须先用fit_transform(partData),之后再transform(restData),这样restData才可以使...原创 2018-05-07 12:58:27 · 1659 阅读 · 0 评论 -
sklearn实现TextRank自动摘要
# 利用TextRank,提取文本摘要import jiebaimport networkx as nxfrom sklearn.feature_extraction.text import TfidfVectorizer, TfidfTransformerdef cut_sentence(sentence): """ 分句 :param sentence: ...原创 2018-04-12 15:00:52 · 2844 阅读 · 3 评论 -
特征选择方法CHI和IG
1)TF-IDF在特征选择时的误区。TF-IDF用于向量空间模型,进行文档相似度计算是相当有效的。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。它仅仅综合考虑了该词在文档中的重要程度和文档区分度。它没有考虑特征词在类间的分布。特征选择所选择的特征应该在某类出现多,而其它类出现少,即考察各类的文档频率的差异。如果一个特征词,在各个类间分布比较均匀,这样的词转载 2016-09-14 15:07:34 · 8638 阅读 · 0 评论 -
libsvm使用
LIBSVM 使用的一般步骤是:1)按照LIBSVM软件包所要求的格式准备数据集; 2)对数据进行简单的缩放操作; 3)首要考虑选用RBF 核函数;4)采用交叉验证选择最佳参数C与g ;5)采用最佳参数C与g 对整个训练集进行训练获取支持向量机模型;6)利用获取的模型进行测试与预测。转载 2016-08-29 15:55:10 · 621 阅读 · 0 评论