
自然语言处理
文章平均质量分 57
Fifth quadrant
smart is the new sexy.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
适用Mac的Python学习资源
莫烦python:https://mofanpy.com。推荐理由:由于mac和win系统的差别,因此在mac和win上编程和使用python等也会有一些差别,所以想给大家推荐一个最近发现的适用于mac系统的python学习资源,特别适合我这种技术不好的小渣渣。这个教程不需要考虑mac和win上编写和运行代码的差别,不会出现看的win系统的python教程,但是copy到mac系统上运行不了的情况。当然,如果是技术大神可以忽略这一点。这个教程里面包含python的基础教程,以及基于python的数据原创 2020-11-27 19:36:56 · 347 阅读 · 1 评论 -
Python调用NLPIR/ICTCLAS进行文本分词
本文采用搜狗中文语料库mini版的文本数据,共九类(财经、IT、健康、体育、旅游、教育、招聘、文化、军事),每个类别共1990个文本,并在实验前通过.py程序抓取前500个文本数据作为训练集。数据预处理包括文本分词、去停用词、词频统计、特征选择、采用向量空间模型表示文档等。接下的几篇博文将按照这几个歩棸对文本进行预处理。文本分词主要通过Python调用中科院计算所汉语词法分析系统NLPIR原创 2016-07-11 18:44:50 · 11958 阅读 · 3 评论 -
去停用词
停用词是一些完全没有用或者没有意义的词,例如助词、语气词等。本文的停用词表是笔者首先从网上下载的哈工大停用词表,含有767个停用词,过滤掉训练集中的停用词。由于停用词过滤得不干净,于是整合了其他词表,结合笔者自己根据实验需求制作的停用词,进行二次过滤。直接上代码:# -*- coding: UTF-8 -*- stopwords=[]st = open('/Users/Admini原创 2016-07-11 18:54:43 · 14006 阅读 · 0 评论 -
词频统计
词频统计TF是统计一个term在文本中出现的次数,一般来说,一个term在某类文本中出现的次数越多,就越能代表一类文本。当然,如果某个term在一类文本中出现的次数越多而在其他类文本里根本不出现,就更能代表这一类文本。直接上代码:#!/usr/bin/env python# -*- coding: UTF-8 -*-for j in range(1,10): for i in原创 2016-07-11 18:57:30 · 1991 阅读 · 0 评论 -
TF-IDF值和文本向量化
根据提取的特征词计算特征值,即TF-IDF。采用向量空间模型(VSM)将文档表示成向量,并将文档输出为WEKA能处理的.arff格式。直接上代码:#!/user/bin/python# -*- coding: utf-8 -*-import codecsimport math# 特征词列表feture_word = [] # 存放特征词feture_word_dic =原创 2016-07-11 19:06:44 · 8836 阅读 · 2 评论 -
特征选择
文本特征提取的方法很多,如基于文本频率的特征提取法、信息增益法、卡方检验法和互信息法等。本文采用基于文本特征频率的提取法,计算文档频率DF,即计算出现某个term在同类文档中的DF。根据计算出来的DF值来选取能代表某类文档的特征词,本实验按DF从高到低,取每类文本前50个term作为特征词,共450个,去重后得到287个特征词。直接上代码:#!/usr/bin/env python# -原创 2016-07-11 19:00:08 · 1290 阅读 · 0 评论 -
【python问题解决】RuntimeError:NLPIR function 'NLPIR_Init' failed
1、实验过程:在pycharm中新建项目textmining,在项目下新建文件夹File,将pynlpir文件夹添加到该文件夹后,运行分词测试程序:#!/usr/bin/env python# -*- coding: utf-8 -*-"""功能:测试PyNLPIR包时间:2016年7月13日 13:02:37"""import pynlpirpynlpir.open()原创 2016-07-14 13:20:01 · 4551 阅读 · 0 评论 -
Python进行文本预处理(文本分词,过滤停用词,词频统计,特征选择,文本表示)
系统:win7 32位分词软件:PyNLPIR集成开发环境(IDE):Pycharm功能:实现多级文本预处理全过程,包括文本分词,过滤停用词,词频统计,特征选择,文本表示,并将结果导出为WEKA能够处理的.arff格式。直接上代码:#!/usr/bin/env python# -*- coding: utf-8 -*-"""功能:PyNLPIR文原创 2016-08-25 15:28:51 · 64883 阅读 · 14 评论