文本挖掘
潔~
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【无标题】英文文本词性识别
from textblob import TextBlobimport pandas as pd#报错Resource averaged_perceptron_tagger not found. Please use the NLTK Downloade的解决方法import nltknltk.download('averaged_perceptron_tagger')#读入数据Idea=pd.read_csv(r"E:\1.csv",encoding="utf-8")i=len(Ide.原创 2022-03-04 14:27:45 · 507 阅读 · 0 评论 -
英文文本相似性计算
本文使用python的gensim通过tf-idf计算文本相似性。相似度计算部分参考:https://www.jianshu.com/p/edf666d3995f1)导入相关包import jieba.posseg as psegimport codecsfrom gensim import corpora, models, similaritiesimport pandas as pdimport reimport stringfrom nltk.corpus import stopwo原创 2021-06-07 18:46:27 · 1352 阅读 · 0 评论 -
python文本可读性
可读性计算方法参考:https://python.ctolib.com/cdimascio-py-readability-metrics.html可读性计算方法有The Flesch Reading Ease formulaFlesch-Kincaid Grade LevelThe Fog Scale (Gunning FOG Formula)The SMOG IndexAutomated Readability IndexThe Coleman-Liau IndexLinsear Wri原创 2020-08-02 16:05:14 · 4059 阅读 · 10 评论 -
python信息熵的计算
信息熵:信息熵越大,信息越多,与以前的消息相比,措辞越独特,信息熵越高参考:信息熵求解部分:https://www.jianshu.com/p/468e2af86d59导入包import numpy as npimport pandas as pdimport nltkimport reimport stringfrom nltk.corpus import stopwordsfrom nltk.tokenize import word_tokenizefrom nltk.stem.p原创 2020-08-02 15:25:05 · 4328 阅读 · 2 评论
分享