主要模块:keras, gensim, pandas
利用训练好的词向量,基于keras使用1dCNN神经网络完成文本情感分类。
keras参考代码链接
参考博客
准备工作
1.训练好的词向量模型"f.model";
2.把原始数据集中的文本内容分词,存放到data.xlsx中。
import openpyxl
import jieba
# read origin excel
fname = "classfied_data.xlsx"
excelBook = openpyxl.load_workbook(r'E:\python\Deep_Text_Classfication\data\classfied_data.xlsx')
sheetNames = excelBook.get_sheet_names()
sheet1 = excelBook.get_sheet_by_name(sheetNames[0])
# creat new excel
myBook = openpyxl.Workbook()
mySheet = myBook.active
# write data to myBook
mySheet['A1'] = 'content'
mySheet['B1'] = 'label'
i = 1
rows = len(tuple(sheet1.rows))
while i <= (rows-1):
try:
text = sheet1.cell(row=i+1,column=1).value+sheet1.cell(row=i+1,column=2).value
except:
text = ''
#text = sheet1.cell_value(i,0)+sheet1.cell_value(i,1)
new_text = jieba.cut(text, cut_all=False) # 精确模式
text_out = ' '.join(new_text).replace(',', '').replace('。', '').replace('?', '').replace('!', '') \
.replace('“', '').replace('”', '').replace(':', '').replace('…',