用到的库:xlrd, jieba
要做什么
这一步是为了分词,利用jieba分词实现。不过先要把包含原始数据的xlsx文件中包含文本的部分提取到txt文件中方便处理。
下面上代码。
xlsx转txt
#encoding=utf-8
#############################################
### 对word2vec进行训练需要语料库 ###
### 将excel单元格中数据转成txt文件便于读入 ###
#############################################
#转换完成,之后不再执行这段代码
import xlrd
fname = "classfied_data.xlsx"
excelbook = xlrd.open_workbook(r'E:\python\Deep_Text_Classfication\data\classfied_data.xlsx')
def getSheet(sh_index):
try:
sh = excelbook.sheet_by_index(sh_index)
except:
print('no sheet'+sh_index+' in %s',format(fname))
return sh
#导入excel数据sheet1
sh1 = getSheet(0)
#获取单元格(5,1)的内容
cell_value = sh1.cell_value(5,1