
python自然语言处理实战
文章平均质量分 89
TtingZh
这个作者很懒,什么都没留下…
展开
-
python_NLP实战之中文垃圾邮件分类
一、机器学习训练的要素数据、转换数据的模型、衡量模型好坏的损失函数、调整模型权重以便最小化损失函数的算法二、机器学习的组成部分1、按照学习结果分类预测、聚类、分类、降维2、按照学习方法分类监督学习,无监督学习,半监督学习,增强学习补充:特征提取(BOW TFIDF Ngram)三、实战中文垃圾文件分类1、数据提取def get_data(): ...原创 2018-10-31 10:42:08 · 7049 阅读 · 10 评论 -
python_NLP实战之豆瓣读书数据聚类
用k_means对豆瓣读书数据聚类1、读取数据以及数据预处理book_data = pd.read_csv('data/data.csv') #读取文件print(book_data.head())book_titles = book_data['title'].tolist()book_content = book_data['content'].tolist()prin...原创 2018-10-31 11:33:00 · 3044 阅读 · 7 评论 -
python_NLP实战之中文分词技术
一、规则分词1.1 正向最大匹配算法# 正向最大匹配算法 MM法 规则分词class MM(object): def __init__(self): self.window_size=3 def cut(self,text): result=[] index=0 text_length=len(te...原创 2018-10-29 20:12:17 · 2258 阅读 · 0 评论 -
python_NLP实战之词性标注与命名实体识别
一、词性标注jieba词性标注结合规则和统计的方法,词典匹配和HMM共同作用二、命名实体识别HMM将分词作为字标记来解决,其中有两条独立性假设 1、输出观察值之间相互独立 2、状态转移过程中,当前状态只与前一状态有关CRF也是一种用来标记和切分序列化数据的统计模型。两者不同的是:条件随机场是在给定观察的标记序列下,计算整个标记序列的联合概率,而HMM是在给定状态下,定义下一个状...原创 2018-10-29 21:27:14 · 3121 阅读 · 0 评论 -
python_NLP实战之关键词提取
关键词提取分为有监督和无监督两种方法。有监督通过构建一个较为丰富和完善的词表,然后通过判断每个文档中每个词的匹配程度,以类似打标签的形式,达到关键词提取的效果。无监督的方法包括TF-IDF算法、TextRank算法(不依赖语料库)和主题模型算法(LSA,LSI,LDA等)1、LSA步骤step1: 使用BOW模型将每个文档表示为向量step2: 将所有的文档词向量拼接起来构成词...原创 2018-10-29 22:10:57 · 4493 阅读 · 4 评论 -
python_NLP实战之文本向量化
实战:网页文本向量化1、词向量的训练1.1 中文语料预处理将xml->txt 繁->简 利用结巴进行分词# -*- coding: utf-8 -*-from gensim.corpora import WikiCorpusimport jiebafrom langconv import *def my_function(): space = ' ...原创 2018-10-30 11:43:41 · 4154 阅读 · 1 评论 -
python_NLP实战之情感分析
情感分析的基本方法有:词法分析,基于机器学习的分析,混合分析词法分析运用了由预标记词汇组成的词典,使用词法分析器将输入文本转换为单词序列,将每个新的单词与字典中的词汇进行匹配。机器学习方法的关键是合适特征的选择。通常有unigram,bigrams,trigrams选为特征向量实战电影评论情感分析分为5部分1、训练或者载入一个词向量生成模型2、创建一个用于训练集的ID矩阵...原创 2018-10-30 21:12:40 · 4539 阅读 · 0 评论