
nlp
文章平均质量分 74
走天涯_1
努力学习各种算法
展开
-
文本关键词算法原理总结
TF-IDF:term frequency-inverse document frequency) 概念:TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比。 词频(term frequency,TF):某一个给定的词语在该文件中出现的次数。这个数字通常会被归原创 2016-07-11 18:40:49 · 2687 阅读 · 0 评论 -
文章提取关键词_jieba(IF-IDF/TextRank)
#!usr/bin/env python#-*- coding:utf-8-*-import jiebaimport jieba.analyseimport codecsfile_path='./data/000000_0'result_file_path="./data/000000_0_result_textrank"f=open(file_path,'r')f_result=原创 2016-07-20 17:11:56 · 5544 阅读 · 0 评论 -
wiki_word2vec_python实验
1.linux安装python版本 gensim word2vec :依赖库:Numpy和SciPy:首先进行安装以上两个库:ubuntu:sudo apt-get install python-numpy python-scipy python-matplotlib ipython ipython-notebook python-pandas python-sympy p原创 2016-07-14 20:29:48 · 3682 阅读 · 1 评论 -
nlp_关键词库(mysql数据库)去噪_python
1.频率归一化词库#!/usr/bin/python#-*- coding:UTF-8 -*-from __future__ import divisionimport MySQLdb as mdb#import chardetcon = mdb.connect('localhost','root','zxwxwz','mysql_test',charset='utf8')cur原创 2016-07-14 15:05:17 · 1476 阅读 · 0 评论 -
jieba分词算法总结
jieba分词算法总结特点:支持三种分词模式 –精确模式,试图将句子最精确地切开,适合文本分析; –全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义; –搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 -支持繁体分词 -支持自定义词典使用:-安装或者将jieba目录放在当前目录或者site-packages目录算法:-基于原创 2016-08-05 14:36:45 · 19915 阅读 · 1 评论 -
LDA主题模型学习笔记
LDA:隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA) 定义: -它是一种主题模型,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。而当我们看到一篇文章后,往往喜欢推测这原创 2016-08-07 17:01:35 · 1854 阅读 · 0 评论 -
nlp_关键词提取总结
关键词提取:从文本中提取出与这篇文章意义最相关的词语。 关键词的作用: 1、文献检索初期,关键词作为搜索这篇论文的词语。 2、在文本聚类、分类、摘要等领域中有着重要的作用。 ——比如聚类时把关键词相似的几篇文章看成一个类团可以大大K-means聚类的收敛速度。 关键词提取大致有两种: 1、关键词分配——从给定的关键词库里面找到几个词作为这篇文章的关键词。 2、关键词抽取——从文章中抽取原创 2016-07-11 16:10:21 · 9948 阅读 · 1 评论