#希拉里右键门,文档主题分类。LDA模型,数据读取还有点问题
#数据来源:请联系公众号:湾区人工智能
import numpy as np
import pandas as pd
import re
import codecs
#UnicodeEncodeError: 'mbcs' codec can't encode characters in position 0--1: invalid character
df = pd.read_csv("D:/自然语言处理/Lecture_3 LDA 主题模型课件与资料/Lecture_3 LDA 主题模型课件与资料/主题模型课件与资料/input/HillaryEmails.csv",encoding='utf-8')
# 原邮件数据中有很多Nan的值,直接扔了。
df = df[['Id','ExtractedBodyText']].dropna()
def clean_email_text(text):
text = text.replace('\n'," ") #新行,我们是不需要的
text = re.sub(r"-", " ", text) #把 "-" 的两个单词,分开。(比如:july-edu ==> july edu)
text = re.sub(r"\d+/\d+/\d+", "", text) #日期,对主体模型没什么意义
text = re.sub(r"[0-2]?[0-9]:[0-6][0-9]", "", text) #时间,没意义
text = re.sub(r"[\w]+@