
Python自然语言处理
微电子学与固体电子学-俞驰
如切如磋,如琢如磨,臻于至善。
展开
-
stanford-chinese-corenlp-yyyy-MM-dd-models.jar not exists解决
手上两个压缩包:stanford-corenlp-4.1.0-models-chinese.jar stanford-corenlp-latest.zip完整报错如下:Traceback (most recent call last): File "stanford_visualize.py", line 4, in <module> with StanfordCoreNLP(r'stanford-corenlp-4.1.0', lang='zh') as nl...原创 2020-08-30 16:59:15 · 2738 阅读 · 2 评论 -
make sure the Graphviz executables are on your systems‘ PATH
完整报错如下:Traceback (most recent call last): File "/home/appleyuchi/anaconda3/envs/Python3.6/lib/python3.6/site-packages/graphviz/backend.py", line 164, in run proc = subprocess.Popen(cmd, startupinfo=get_startupinfo(), **kwargs) File "/home/appleyu...原创 2020-08-28 22:05:55 · 1593 阅读 · 0 评论 -
中文-自然语言处理-开源工具-流行度调查+句法依存树可视化调研
NLTKLTPOpenNLPICTCLASANTLRDDParserTHULACGensimspaCyStanford CoreNLPIKAnalyzerNLPIR哈工大LTP平台东北大学NIUParserjiebaFudanNLPhttps://blog.youkuaiyun.com/qushaming/article/details/92585334原创 2020-08-28 19:50:56 · 681 阅读 · 0 评论 -
AttributeError: ‘pyltp.Postagger‘ object has no attribute ‘load‘
报错代码如下:## 代码片段import osimport jiebafrom pyltp import Postagger, Parsersent = '2018年7月26日,华为创始人任正非向5G极化码(Polar码)之父埃尔达尔教授举行颁奖仪式,表彰其对于通信领域做出的贡献。'jieba.add_word('Polar码')jieba.add_word('5G极化码')jieba.add_word('埃尔达尔')jieba.add_word('之父')words ...原创 2020-08-28 19:01:20 · 1973 阅读 · 0 评论 -
pyltp在ubuntu20.04下面的安装办法
环境组件 版本 Ubuntu 20.04 Python 3.6.10 安装思路需要先安装ltp,然后再安装pyltp,缺一不可。ltp安装办法:git clonehttps://gitee.com/fastsource/ltpcd ltppip install 安装下面的依赖包依赖包 版本 torch 1.6.0 torchtext 0.5.0 transformers 3.0.2 pygtrie...原创 2020-08-28 15:48:00 · 830 阅读 · 0 评论 -
ngram_range的作用与N-gram的Python应用(还差一个ngram聚类没完成)
目前N-gram最为有用的就是自然语言的自动分类功能。基于n-gram的自动分类方法有两大类,一类是人工干预的分类(Classification),又称分类;一类是无人工干预的分类(Clustering),又称聚类。N-Gram距离定义为:∣GN(s)+GN(t)∣−2X∣GN(s)∩GN(t)∣|G_N(s)+G_N(t)|-2X|G_N(s)∩G_N(t)|∣GN(s)+GN(t)∣−2X∣GN(s)∩GN(t)∣(NNN的意思是在s中每两个字符进行分割,分割的结果作为最小单位)扯原创 2020-08-27 23:26:31 · 3790 阅读 · 0 评论 -
中文分词工具jieba中的词性类型(转载)
jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下: Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a 形容词 取英语形容词 adjective的第1个字母。 ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。 an .转载 2020-08-25 18:21:57 · 1453 阅读 · 0 评论 -
中文词性标注
#-*- encoding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding('utf-8')import pynlpirimport timepynlpir.open()start=time.time()s = '聊天机器人到底该怎么做呢?'segments = pynlpir.segment(s)for segmen转载 2017-12-26 23:45:55 · 726 阅读 · 0 评论 -
在线nltk分词和词性标注
text-processing.com/demo/tokenize/https://demos.explosion.ai/displacy/转载 2018-02-12 17:02:14 · 1198 阅读 · 0 评论 -
使用nltk.pos出现IndexError: string index out of range
问题重现:# -*- encoding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding('utf-8')import nltkfrom nltk.corpus import stopwordstext="I've got a very big apple "text=text.split(" ")# text.remove(...转载 2018-02-12 15:02:01 · 708 阅读 · 0 评论 -
nltk英文词性标注
需要用nltk.download()下载punkt和averaged_preceptron_taggerimport nltkwords = nltk.word_tokenize('And now for something completely different')print(words)word_tag = nltk.pos_tag(words)print(word_tag)...转载 2018-02-09 11:31:14 · 1583 阅读 · 0 评论 -
决策树(CART算法)针对中文文本分类
改编自博客:http://blog.youkuaiyun.com/github_36326955/article/details/54891204根据下面的参考了链接可知,sklearn中的决策树用的是CART算法http://sofasofa.io/forum_main_post.php?postid=1000402&做个笔记代码按照1 2 3转载 2018-01-14 16:16:19 · 4533 阅读 · 0 评论 -
随机森林针对中文文本分类
改编自博客:http://blog.youkuaiyun.com/github_36326955/article/details/54891204做个笔记代码按照1 2 3 4的顺序进行即可:1.py(corpus_segment.py)[python] view plain copy#!/usr/bin/转载 2018-01-14 16:24:27 · 6201 阅读 · 16 评论 -
NLTK的图形化语料文本下载器downloader
进入python交互模式输入import nltknltk.download()原创 2018-01-13 16:44:29 · 1668 阅读 · 0 评论 -
NLPIR RuntimeError: NLPIR function 'NLPIR_Init' failed 解决方案
红帽子内核的(redhat,centos,scientific linux等),Data路径在 /usr/lib64/python2.7/site-packages/pynlpir/Datahttps://github.com/NLPIR-team/NLPIR/tree/master/License中下载NLPIR.u转载 2017-12-27 22:12:04 · 2555 阅读 · 0 评论 -
xlwt写入单元格,xlrd读出单元格
依次写入多个单元格#-*- encoding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding('utf-8')import xlwt;import xlrd;from xlutils.copy import copy;for i in range(100): oldWb = xlrd.open_workbook("....转载 2017-09-14 16:51:42 · 2947 阅读 · 0 评论 -
pytagcloud支持中文(汉仪全唐诗体简)
/home/appleyuchi/.virtualenvs/python2.7/lib/python2.7/site-packages/pytagcloud/fonts增加HYQuanTangShiJ.ttf文件然后修改fonts.json文件如下:[ { "name": "Nobile", "ttf": "nobile.ttf", "web": "http://font转载 2018-02-07 12:27:15 · 519 阅读 · 0 评论 -
中文高频词汇统计并绘制词云
转载自:https://www.jianshu.com/p/2052d21a704c代码如下:# -*- encoding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding('utf-8')import jieba.analysefrom os import pathfrom scipy.misc import imreadim...转载 2018-02-08 10:12:14 · 3634 阅读 · 0 评论 -
python调用stanfordNLP的NER接口
操作环境:python2.7ubuntu16.04 64位----------------------------------------------------------------步骤一:下载http://nlp.stanford.edu/software/stanford-ner-2014-01-04.zip解压后cd stanford-ner-2014-01-04终端中输入:java -...转载 2018-03-21 19:08:46 · 2495 阅读 · 0 评论 -
KNN针对中文文本分类
改编自博客:http://blog.youkuaiyun.com/github_36326955/article/details/54891204做个笔记代码按照1 2 3 4的顺序进行即可:1.py(corpus_segment.py)[python] view plain copy #!/usr/bin/envpython#-*-cod转载 2017-09-13 16:36:07 · 3313 阅读 · 4 评论 -
gensim出现segmentation Fault解决方案
具体报错为:segmentation-fault程式記憶體區段錯誤 (核心已傾印)解决方案:num_features=len(dictionary.dfs)转载 2019-09-22 20:56:42 · 600 阅读 · 0 评论 -
python3安装fasttext
Collecting fasttext Downloading https://pypi.doubanio.com/packages/a4/86/ff826211bc9e28d4c371668b30b4b2c38a09127e5e73017b1c0cd52f9dfa/fasttext-0.8.3.tar.gz (73kB)Requirement already satisfied: nump...转载 2017-09-01 09:46:06 · 12571 阅读 · 0 评论 -
按行拼接两个txt文件的python实现
如果在mariadb中复制了一列到txt上,需要在每行后面追加一个符号"|"f = open('2.txt')o = open('2.txt', 'w')for line in f: line2=str(line.strip('\r\n'))+'|'+'\n' o.write(line2)这个代码的效果是2.txt 中内容中某一行是429491769...原创 2017-05-19 21:57:45 · 9123 阅读 · 0 评论 -
分别用matlab和python计算物品相似度矩阵(Jaccard系数
用户\物品 A B C D E 101 1 1 0 0 1 102 0 1 0 1 0 103 1 1 1 1 1 104 1 1 0 1 0 105 1 1 0 0 1 106 0...原创 2017-05-12 20:14:44 · 15417 阅读 · 0 评论 -
特征向量按照特征值大小进行排序
代码如下:’import sysprint sys.pathimport numpy as npk=35evals=np.array([0,2,5,3,1])evecs=np.array([[1,1],[2,3],[4,5],[7,7],[6,8]])sorted_indices = np.argsort(evals)evals=evals[sorted_indices]...转载 2019-07-17 20:29:04 · 5086 阅读 · 0 评论 -
这是一份通俗易懂的知识图谱技术与应用指南(转)
从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。 本文以通俗易懂的方式来讲解知识图谱相关的知识、尤其对从零开始搭建知识图谱过程当中需要经历的步骤以及每个阶段需要考虑的问题都给予了比较详细的解释。 对于读者,我们不要求有任何AI相关的背景知识。目录: 概论 什么是知识...转载 2018-12-25 18:55:29 · 1073 阅读 · 0 评论 -
提取字符串中的多个连续数字
import re str1 = '2366年1月9日' pattern = re.compile(r'\d+') res = re.findall(pattern, str1)for i in res: print unicode(i, 'utf-8', 'ignore')输出:231619转载 2018-12-06 15:24:01 · 9042 阅读 · 0 评论 -
按比例分割数据集
不多说,上代码:#-*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding('utf-8')import numpy as npfrom sklearn.model_selection import train_test_splitimport csv# 注意,使用时,默认最后一列是类别标签# 并且假定第0行...转载 2018-12-07 21:03:53 · 3962 阅读 · 0 评论 -
AttributeError: module 'networkx' has no attribute 'draw_graphviz'解决方案
环境:Python2.7 (64)、ubuntu环境下被运行的代码来自《Python自然语言处理》的P185-186,代码如下:P185-186.pyimport networkx as nximport matplotlibfrom nltk.corpus import wordnet as wndef traverse(graph, start, node):原创 2017-11-25 21:17:01 · 11334 阅读 · 2 评论 -
nltk断句
import nltkimport pprintsent_tokenizer=nltk.data.load('tokenizers/punkt/english.pickle')text=nltk.corpus.gutenberg.raw('chesterton-thursday.txt')sents=sent_tokenizer.tokenize(text)pprint.pprint(s转载 2017-11-25 14:47:25 · 2028 阅读 · 0 评论 -
词形归并
Python 2.7.5 (default, Aug 4 2017, 00:39:18) [GCC 4.8.5 20150623 (Red Hat 4.8.5-16)] on linux2Type "help", "copyright", "credits" or "license" for more information.>>> import nltk>>> raw="""DENNI转载 2017-11-25 11:19:36 · 708 阅读 · 0 评论 -
fasttext初步使用
转载自:http://blog.youkuaiyun.com/lxg0807/article/details/52960072#comments训练数据# _*_coding:utf-8 _*_import logginglogging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=l转载 2017-09-01 10:36:52 · 7337 阅读 · 6 评论 -
rstrip的用法
#!/usr/bin/python# -*- coding:utf-8 -*-str = " this is string example....wow!!! ";print str.rstrip();#这个就是没有删除任何的字符str = "88888888this is string example....wow!!!8888888";print str.rstrip转载 2017-09-01 11:22:03 · 1618 阅读 · 1 评论 -
python中文正则匹配初步使用
用于提取文本子类,代码:# _*_coding:utf-8 _*_ import resource = "我想听六年级放一首刘德华的歌曲语文明天会下雨吗下册我很难过离过年还有几天第六十五课"course= u"(语文|数学|英语|体育|自然科学)"#小学有几门课就在这里添加几门course_pattern = re.compile(course) # 过滤规则result1 =原创 2017-09-08 16:02:25 · 893 阅读 · 0 评论 -
正则表达式中?的用法
正则表达式-问号的四种用法原文符号因为?在正则表达式中有特殊的含义,所以如果想匹配?本身,则需要转义,\?有无量词问号可以表示重复前面内容的0次或一次,也就是要么不出现,要么出现一次。非贪婪匹配贪婪匹配在满足匹配时,匹配尽可能长的字符串,默认情况下,采用贪婪匹配string pattern1 = @"a.*c"; // greedy转载 2017-09-08 11:46:39 · 604 阅读 · 0 评论 -
中文正则表达式初步使用
以下代码用于python3.x# _*_coding:utf-8 _*_import reimport chardetsource = "s2f程序员杂志一2d3程序员杂志二2d3程序员杂志三2d3程序员杂志四2d3"#temp = source.decode('utf8')temp = sourcexx=u"([\u4e00-\u9fa5]+)"pattern = re.com转载 2017-09-07 21:38:22 · 477 阅读 · 0 评论 -
gensim在“中文查找(关键词)“与“txt文本“之间做相似度计算(返回最相似的文本)
#---------------------------------------------------------------下面本文目的-------------------------------------------------------搜索关键词,返回最相关的txt文本内容(模仿搜索引擎)#-----------------------------------------...原创 2019-09-22 21:36:14 · 958 阅读 · 0 评论 -
朴素贝叶斯(NaiveBayes)针对小数据集中文文本分类预测
转自相国大人的博客,http://blog.youkuaiyun.com/github_36326955/article/details/54891204做个笔记代码按照1 2 3 4的顺序进行即可:1.py(corpus_segment.py)#!/usr/bin/env python# -*- coding: UTF-8 -*-"""@version: python2.7.8转载 2017-09-13 14:27:04 · 6425 阅读 · 5 评论 -
LogisticRegression针对中文文本分类
改编自博客:http://blog.youkuaiyun.com/github_36326955/article/details/54891204做个笔记代码按照1 2 3 4的顺序进行即可:1.py(corpus_segment.py)[python] view plain copy #!/usr/bin/env python # -*- codin转载 2017-09-13 17:04:17 · 2041 阅读 · 0 评论 -
SVM针对中文文本分类
改编自博客:http://blog.youkuaiyun.com/github_36326955/article/details/54891204做个笔记代码按照1 2 3 4的顺序进行即可:1.py(corpus_segment.py)[python] view plain copy #!/usr/bin/env python # -*- codin转载 2017-09-13 16:58:09 · 8883 阅读 · 6 评论