
自然语言处理
文章平均质量分 53
Luban250
这个作者很懒,什么都没留下…
展开
-
英文维基百科Python查询API
问题描述维基百科语料库是做文本挖掘和自然语言处理相关实验的一个非常重要的公开可获取大规模语料库(知识库),有时需要对其进行检索并对获取结果页面的相关信息,如正文文本、标题、页面文本长度等。一种常见的做法是把维基百科语料的dump下载到本机使用,但是这种做法对本机的性能(内存、硬盘)等有一定要求,并且要自己进行众多繁琐的预处理,如果要进行检索,则还需要在本地实现检索功能,显然需要的预处理工作量有点大。如果我们不是使用大规模维基百科语料进行模型训练(如预训练模型),那么可以参考维基百科提供的API接口快速调用原创 2021-08-08 16:49:31 · 1312 阅读 · 0 评论 -
Python字符统一标准化
问题在Python 3.X环境下使用Hugging Face中Bert模型获取词向量时,发现tokenizer的分词结果出现乱码,如下:# 这是直接在交互式命令行执行的结果tokenizer.tokenize("anti - spam suit")Out[3]: ['anti', '-', 'spa', '##m', 'suit']转念一想,spam这样一个常见词应该在词表里出现啊,那问题应该出现在编码上,只要将字符串编码统一即可,想起之前看github上使用Bert的DNN项目代码,那个项原创 2021-03-10 16:13:03 · 887 阅读 · 0 评论 -
K-means文本聚类使用自定义距离函数
问题在使用K-means对文本聚类时,常用余弦距离,但是scikit-learn中的k-mean只支持欧氏距离,简单的解决办法就是将文本向量标准化(模长变为1),此时欧式距离与余弦距离是单调的,选择欧氏距离与选择余弦距离是等价的,需要注意的是余弦距离=1-余弦相似度,该解决方法详见博文《余弦距离与欧式距离》。但是,如果我们想在K-menas中使用自己定义的距离函数,该怎么办呢,计算文本相似度时,经常会遇到根据任务需求自定义相似度计算指标的情况哦,改scikit-learn的源代码或者自己实现一份支持自定义原创 2020-12-23 08:59:47 · 8413 阅读 · 7 评论 -
Python打印彩色文本
Motivation希望高亮突出显示文本数据中的某些片段,这些片段可能是某些任务的gold standard,在做错误分析时,想高亮显示,以便对比预测结果与truth之间的差异。SolutionPython 3.Xfrom termcolor import coloredprint(colored('hello', 'red'), colored('world', 'green'))Result:ReferenceHow to print colored text in Python?原创 2020-12-02 16:45:31 · 322 阅读 · 0 评论 -
Python调用哈工大语言云(LTP)API进行自然语言处理
转载:http://blog.youkuaiyun.com/churximi/article/details/51173297哈工大语言云(语言技术平台云)是以哈工大社会计算与信息检索研究中心研发的“语言技术平台(LTP)” 为基础,提供高效精准的中文自然语言处理云服务。 官网:http://www.ltp-cloud.com/ 使用python调用API实验转载 2016-07-07 22:58:51 · 2169 阅读 · 0 评论 -
【pynlpir问题解决】RuntimeError:NLPIR function 'NLPIR_Init' failed
[python] view plain copyTraceback (most recent call last): File "<stdin>", line 1, in <module> File "pynlpir/__init__.py", line 99, in open raise RuntimeError("NLPIR function 'NLPIR_Init' failed.") RuntimeError: NLPIR function 'NLP转载 2016-08-01 11:15:25 · 4507 阅读 · 0 评论 -
Keras安装与简介
转载:http://blog.youkuaiyun.com/mmc2015/article/details/50976776先安装上再说:sudo pipinstall keras或者手动安装:下载:git clone git://github.com/fchollet/keras.git传到相应机器上安装:cd to转载 2016-08-01 19:54:03 · 5809 阅读 · 0 评论 -
百度开源深度学习框架PaddlePaddle安装配置(单机CPU版)
一、环境配置PC机一台+Windows 7 Homebasic 系统二、过程1、安装Ubuntu14.04.1 64位双系统如果你的PC机是windows系统,建议安装Linux双系统,以下以安装Ubuntu14.04.164位系统为例(这个版本比较稳定,众多软件支持,Paddle的三种安装方式都可以在Ubuntu14.04.1 64位系统上安装),如过你的系统是Linu原创 2016-09-25 15:48:13 · 27578 阅读 · 10 评论 -
jieba分词增加自定义词表
在使用jieba分词时经常会发现一些未登录词,因此增加领域词表就变得很重要,下面提供增加几种途径:1、领域权威词汇字典2、搜狗输入法领域词库、百度输入法领域词库3、jieba分词提供的其他词典:点我查看jieba分词提供的其他字典然后这三种类型的用户此表取个并集即可,在Python中使用集合操作即可,例如,三种字典均为列表(listt),如下操作即可去除重复:set(u原创 2016-10-03 21:27:02 · 22019 阅读 · 0 评论 -
jieba分词词性标记含义
转载:http://www.cnblogs.com/adienhsuan/p/5674033.htmljieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下:Ag形语素形容词性语素。形容词代码为 a,语素代码g前面置以A。a形容词取英语形容词 adjec转载 2016-10-03 10:57:16 · 18943 阅读 · 0 评论 -
Pynlpir词性标记集
reference page:http://pynlpir.readthedocs.io/en/latest/_modules/pynlpir/pos_map.html?highlight=poshttp://pynlpir.readthedocs.io/en/latest/pos_map.html?highlight=poshttps://github.com/tsroten/p原创 2016-12-30 09:23:39 · 3085 阅读 · 0 评论 -
最大熵模型GIS算法的Python实现
最大熵模型GIS算法的Python实现最大熵模型工具包原创 2017-05-25 20:21:41 · 6173 阅读 · 3 评论 -
python scikit-learn计算tf-idf词语权重
转载 :http://blog.youkuaiyun.com/liuxuejiang158blog/article/details/31360765 Python的scikit-learn包下有计算tf-idf的api,研究了下做个笔记1 安装scikit-learn包[python] view plain copys转载 2016-06-14 20:00:55 · 4035 阅读 · 2 评论 -
基本文本聚类方法
转自:http://blog.youkuaiyun.com/wangran51/article/details/7382258转自:http://hi.baidu.com/yaomohan/blog/item/e7b1c2c2516638110ef477cc.html经过N天的努力,我的第一个文本聚类小程序终于火热出炉了.真不容易啊,在网上看了很多程序才明白其中的核心原理。其实原理转载 2016-06-14 20:26:11 · 13120 阅读 · 0 评论 -
Python自然语言处理 NLTK包中的 text3.generate() 命令出错 'Text' object has no attribute 'generate'
《python自然语言处理时》第28页有这样一个命令--text3.generate()---功能是:产生一些与text3风格类似的随机文本。用NLTK3.0.4和Python2.7.6来实现时却出现错误:'Text' object has no attribute 'generate' .探索一下后发现问题所在:打开nltk文件夹中的text.py发现了,原来新版本的NLTK原创 2015-08-09 13:50:56 · 7021 阅读 · 2 评论 -
解决UnicodeEncodeError: 'ascii' codec can't encode characters in position问题
转载自:http://blog.sina.com.cn/s/blog_64a3795a01018vyp.html今天把一个列表转换成字符串输出的时候出现了UnicodeEncodeError: 'ascii' codec can't encode characters in position 32-34: ordinal not in range(128)问题,使用的是ulipad转载 2015-11-03 17:10:05 · 2086 阅读 · 1 评论 -
python如何一次性取出多个随机数
转载自:http://zhidao.baidu.com/question/516550997.htmlPython内置的函数一次只能生成一个随机数,然而你可以方便地使用表理解(list comprehension)一次性生成多个随机数。示例的代码如下:import random[random.randint(0,100) for _ in range(10)]#[57转载 2016-03-17 11:20:38 · 35116 阅读 · 2 评论 -
Python java.lang.NoClassDefFoundError: org/slf4j/LoggerFactory解决办法
在使用NLTK中的Stanford Parser Python接口时,会遇到报错信息:java.lang.NoClassDefFoundError: java.lang.NoClassDefFoundError: org/slf4j/LoggerFactory解决办法如下原创 2016-02-22 16:36:11 · 3794 阅读 · 0 评论 -
jpython LookupError: unknown encoding 'ms936' 问题解决
jpython LookupError: unknown encoding 'ms936' 问题解决转载 2016-02-23 09:51:03 · 1775 阅读 · 0 评论 -
python自动给数字前面补0的方法
转载:http://www.sharejs.com/codes/python/8037-python中有一个zfill方法用来给字符串前面补0,非常有用Pythonpython中有一个zfill方法用来给字符串前面补0,非常有用n = "123"s = n.zfill转载 2016-02-27 10:57:26 · 197215 阅读 · 7 评论 -
python实现指定字符串补全空格的方法
转载:http://www.jb51.net/article/65258.htm这篇文章主要介绍了python实现指定字符串补全空格的方法,涉及Python中rjust,ljust和center方法的使用技巧,非常具有实用价值,需要的朋友可以参考下本文实例讲述了python实现指定字符串补全空格的方法。分享给大家供大家参考。具体分析如下:如果希望转载 2016-02-27 10:59:00 · 9941 阅读 · 0 评论 -
Python 调用 Stanford Parser 两种方法
Python 调用 Stanford Parser 的方法Jython 调用 Stanford Parser 的方法Python java.lang.NoClassDefFoundError: org/slf4j/LoggerFactory解决办法原创 2016-02-22 16:14:51 · 12207 阅读 · 3 评论 -
递归实现前向匹配分词
# -*- coding: utf-8 -*-'''功能:递归实现前向匹配分词说明:zhuanma这个包借鉴自jieba分词源代码用于将任意格式编码的字符串转换为unicode编码,统一字典和待分词语句的编码后,便于句子切分和分词.Author: Date : 2016-04-16'''import refrom zhuanma import strdecode原创 2016-04-16 15:59:58 · 1023 阅读 · 0 评论 -
什么是一阶逻辑(First-order Logic)
转载:http://blog.sina.com.cn/s/blog_4e8581890102ean4.html实际上,一阶逻辑是一种形式系统(Formal System),即形式符号推理系统,也叫一阶谓词演算、低阶谓词演算(Predicate Calculus)、限量词(Quantifier)理论,也有人称其为“谓词逻辑”,虽然这种说法不够精确。总之,不管怎么说,一阶逻转载 2016-05-30 20:38:13 · 17209 阅读 · 0 评论 -
Python sklearn K-means算法及文本聚类实践
转载:http://www.ziliao1.com/Article/Show/B2F0AD01141F0D9ADC32D04B8A2AD6D1.htmlK-Means是常用的聚类算法,与其他聚类算法相比,其时间复杂度低,聚类的效果也还不错,这里简单介绍一下k-means算法,下图是一个手写体数据集聚类的结果。 基本思想 k-means算法需要事先指定簇的转载 2016-06-14 20:29:21 · 14502 阅读 · 1 评论 -
自然语言处理工具Stanford Parser相关资料
官网:http://nlp.stanford.edu/software/lex-parser.shtml#Sample1、Stanford parser 句法分析器的使用说明 http://blog.sina.com.cn/s/blog_7058e0e40101h9t9.html2、自然语言处理工具(Stanford-Parser)使用注意事项 http://blo原创 2015-04-28 19:55:26 · 753 阅读 · 0 评论