
自然语言处理
文章平均质量分 92
象在舞
谁说大象不能跳舞!
展开
-
自然语言数据管理
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。1、语料库结构研究import nltk# 语料库结构研究phonetic = nltk.corpus.timit.phones('dr1-f...原创 2019-03-10 15:41:35 · 648 阅读 · 1 评论 -
自然语言理解
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。 有了之前的学习之后,就可以进行自然语言的理解分析了,一起来看看吧~一、基于SQL数据库的问答系统1、首先输入一个特征文法im...原创 2019-03-10 14:07:34 · 845 阅读 · 4 评论 -
自热语言处理中的文法分析
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。 文法在自然语言处理中可以提高处理的准确度,属于很关键的一环。'''文法分析'''import nltk# 文法gramm...原创 2019-03-10 13:43:14 · 637 阅读 · 0 评论 -
分块器评估与语言结构中的递归
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。一、信息提取与分块1、信息提取# 信息提取def ie_preprocess(document): sentences = nltk...原创 2019-03-07 17:01:23 · 433 阅读 · 0 评论 -
自然语言处理中的文本聚类
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。 聚类是典型的无监督学习方法,在自然语言处理中,聚类也是至关重要的。【英文文档的聚类】'''英文文档的聚类'''import...原创 2019-02-25 12:16:32 · 5191 阅读 · 2 评论 -
自然语言处理中的文本分类
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。1、首先来看一个使用朴素贝叶斯分类器对性别进行分类鉴定的例子。# 构造特征提取器def gender_features(word): # 提取出...原创 2019-02-23 16:15:01 · 1250 阅读 · 1 评论 -
词性标注器
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。 词性标注在自然语言处理中也是很重要的一环,本篇文章将主要介绍一下相关的词性标注器,一起来看看吧~一、词性的初测 分...原创 2019-02-20 11:18:44 · 1188 阅读 · 0 评论 -
连续时间动态主题模型(Continuous Time Dynamic Topic Models, cDTM)
用于分析和管理大量电子文档的工具变得越来越重要。近年来,离散数据的分层贝叶斯模型,已成为一种广泛使用的文本探索和预测分析方法。 主题模型,例如潜在Dirichlet分配(LDA)和更一般的离散分量分析,假定可以使用少量的单词分布(称为主题)来解释观察到的集合LDA是潜在语义索引(LSI)和概率潜在语义索引(pLSI)的概率扩展。 由于其正式的生成语义,LDA已被扩展并应用于作者,电子...原创 2018-12-26 16:56:01 · 7568 阅读 · 2 评论 -
动态主题模型(Dynamic Topic Models, DTM)
在本文中,我们介绍一个动态主题模型,该模型捕获了顺序组织的文档语料库中主题的演变。 我们通过分析由Ed Edi-son于1880年创立的Jour-nal Science的100多年的OCR文章来证明其适用性。在这种模式下,文章按年份分组,每年的艺术作品都来自于去年主题演变而来的一系列主题。 在随后的部分,我们扩展了经典状态空间模型,以指定主题演化的统计模型。然后,我们...原创 2018-12-21 13:26:07 · 19102 阅读 · 1 评论 -
基于gibbs采样的topic over time
代码参考:https://github.com/ahmaurya/topics_over_time,如有侵权,请告知删除~ 吉布斯采样(Gibbs sampling)是统计学中用于马尔科夫蒙特卡洛(MCMC)的一种算法,用于在难以直接采样时从某一多变量概率分布中近似抽取样本序列。该序列可用于近似联合分布、部分变量的边缘分布或计算积分(如某一变量的期望值)。某些变量可能为已知变...原创 2018-12-17 20:58:01 · 1439 阅读 · 12 评论 -
中文分词的算法与实现(结巴分词)
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。 结巴分词支持三种分词模式:1.精确模式,试图将句子最精确的切开,适合文本分析;2.全模式,把句子中所有的可以成词的词语都扫描出来,速度...原创 2018-12-07 14:17:25 · 2416 阅读 · 1 评论 -
英文原始文本的读取与处理
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。 一、在线下载txt文档import nltk, re, pprintfrom nltk import word_tokenizefrom ...原创 2018-12-07 13:37:58 · 1438 阅读 · 0 评论 -
语料库的获取与词频分析
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。 一、古腾堡语料库# 古腾堡语料库from nltk.corpus import gutenberg # 加载古腾堡语料库gutenber...原创 2018-12-06 15:17:47 · 8717 阅读 · 0 评论 -
自然语言分析包NLTK安装及入门
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。《Python自然语言处理》主要介绍如何用Python进行自然语言处理,专栏中代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《P...原创 2018-12-05 14:28:03 · 43828 阅读 · 0 评论