读取原始tsv文件中内容
说明:原始tsv文件是n行4列的表格文件,我们需要的是其中第1列和第4列内容,并根据第1列的label,将其对应的content保存到不同的xls文件中
pos_list = []
neg_list = []
neu_list = []
with open(org_file, "r", encoding="utf-8") as f:
content = csv.reader(f)
for i in content:
# 由于i是列表格式的内容(每一列内容并加上中间的\t),因此需要先提取str数据然后使用分隔符得到一行的列表格式数据,每个元素是一个单元格的内容
row = i[0].split("\t")
# print(row)
# 由于我们想要的数据位于row[3],因此直接提取并保存于列表中
if row[0] == '-1':
neg_list.append(row[3])
elif row[0] == '0':
neu_list.append(row[3])
elif row[0] == '1':
pos_list.append(row[3])
新建xls文件并利用列表内容写入表格文件中
tar_neg = "neg.xls"
tar_pos = "pos.xls"
tar_neu = "neu.xls"
# newline=''是为了防止表格文件中出现空行
with open(tar_neg, "w", newline='')as f1:
reader = csv.writer(f1)
for cont in neg_list:
print(cont)
# writerow而不是writerows;参数需要加[],否则每个字符中间会出现逗号
reader.writerow([cont])