下载下来的搜狗实验室用于分类的mini语料库是 gb2312
或者gbk
的编码,甚是不方便,于是就写了个脚本将其批量转换为utf-8
的文件。
代码如下:(备份,会删除原文件)
#-*-coding:utf-8 -*-
import os
folder ='caseData\\Sample' #存储文本的目录
listDir = [ dirs[0] for dirs in os.walk(folder)][1:]#获取所有的子目录
for dataDir in listDir:
files = [os.path.join(dataDir,i) for i in os.list