from pyspark.conf import SparkConf
from pyspark.sql import SparkSession
import numpy as np
import pandas as pd
from datetime import datetime
from datetime import date
from datetime import timedelta
from gensim import corpora,models,similarities
from collections import Counter
import jieba
#判断字符串是否为中文
def is_chinese(string):
for ch in string:
if u'\u4e00' <= ch <= u'\u9fff':
return True
return False
# 将文本中的中文做分词处理
all_word_list=[]
for key,value in warn_data.iterrows():
doc_list = [word for word in jieba.cut(value['paths']) if is_chinese(word)]
all_word_list.append(doc_list)
# 使用dictionary方法获取词袋,词袋中用数字对所有词进行了编号
all_word = corpora.Dictionary(all_word_list)
print(all_word.token2id) #词袋内容
# 使用doc2bow制作语料库,语料库是一组向量,向量中的元素是一个二元组(编号、频次),对应分词后的文档中的每一个词
all_doc_corpus = [all_word.doc2bow
python中文关键词提取
最新推荐文章于 2024-10-25 07:22:23 发布