
Python自然语言处理
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。本专栏主要介绍如何用Python进行自然和语言处理。
象在舞
谁说大象不能跳舞!
展开
-
自然语言数据管理
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。1、语料库结构研究import nltk# 语料库结构研究phonetic = nltk.corpus.timit.phones('dr1-f...原创 2019-03-10 15:41:35 · 648 阅读 · 1 评论 -
自然语言理解
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。 有了之前的学习之后,就可以进行自然语言的理解分析了,一起来看看吧~一、基于SQL数据库的问答系统1、首先输入一个特征文法im...原创 2019-03-10 14:07:34 · 845 阅读 · 4 评论 -
自热语言处理中的文法分析
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。 文法在自然语言处理中可以提高处理的准确度,属于很关键的一环。'''文法分析'''import nltk# 文法gramm...原创 2019-03-10 13:43:14 · 637 阅读 · 0 评论 -
分块器评估与语言结构中的递归
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。一、信息提取与分块1、信息提取# 信息提取def ie_preprocess(document): sentences = nltk...原创 2019-03-07 17:01:23 · 433 阅读 · 0 评论 -
自然语言处理中的文本聚类
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。 聚类是典型的无监督学习方法,在自然语言处理中,聚类也是至关重要的。【英文文档的聚类】'''英文文档的聚类'''import...原创 2019-02-25 12:16:32 · 5191 阅读 · 2 评论 -
自然语言处理中的文本分类
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。1、首先来看一个使用朴素贝叶斯分类器对性别进行分类鉴定的例子。# 构造特征提取器def gender_features(word): # 提取出...原创 2019-02-23 16:15:01 · 1250 阅读 · 1 评论 -
词性标注器
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。 词性标注在自然语言处理中也是很重要的一环,本篇文章将主要介绍一下相关的词性标注器,一起来看看吧~一、词性的初测 分...原创 2019-02-20 11:18:44 · 1188 阅读 · 0 评论 -
中文分词的算法与实现(结巴分词)
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。 结巴分词支持三种分词模式:1.精确模式,试图将句子最精确的切开,适合文本分析;2.全模式,把句子中所有的可以成词的词语都扫描出来,速度...原创 2018-12-07 14:17:25 · 2416 阅读 · 1 评论 -
英文原始文本的读取与处理
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。 一、在线下载txt文档import nltk, re, pprintfrom nltk import word_tokenizefrom ...原创 2018-12-07 13:37:58 · 1438 阅读 · 0 评论 -
语料库的获取与词频分析
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。 一、古腾堡语料库# 古腾堡语料库from nltk.corpus import gutenberg # 加载古腾堡语料库gutenber...原创 2018-12-06 15:17:47 · 8717 阅读 · 0 评论 -
自然语言分析包NLTK安装及入门
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。《Python自然语言处理》主要介绍如何用Python进行自然语言处理,专栏中代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《P...原创 2018-12-05 14:28:03 · 43828 阅读 · 0 评论 -
NLP中常用的分词器
众所周知,NLP即自然语言处理,那么在NLP中常用的分词器都有哪些呢?本文主要介绍NLP中常用的分词器。一、Mmseg4j:基于正向最大匹配(https://code.google.com/p/mmseg4j/) mmseg4j用Chih-HaoTsai的MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在...原创 2018-04-17 19:34:08 · 2020 阅读 · 0 评论