1、指定文件默认编码格式解决中文乱码问题
在.py文件头部添加这行代码
# -*- coding:utf-8 -*-
#如果在Python2.x下添加了上面的配置还出现中文乱码,则加以下配置
# encoding=utf8
import sys
reload(sys)
sys.setdefaultencoding('utf8')
2、将数据以jsonl格式写入文件
#out_path:输出文件路径;datas:字典数组;mode:追加(a)或者覆盖(w)
def write_to_jsonl(out_path, datas, mode="w"): # 将 jsonl 数据写入文件 with open(out_path, mode, encoding='utf-8') as file: for re in datas: json_data = json.dumps(re, ensure_ascii=False) file.write(json_data + "\n")
3、 获取指定目录下所有子、孙文件列表
def get_sub_files(dir_path):
result = []
for root, dirs, files in os.walk(dir_path):
for file in files:
path = os.path.join(root, file)
# print(path)
if path.find("~$") > -1:
print(path)
result.append(path)
return result
文章讲述了如何在Python中解决中文乱码问题,通过指定文件默认的utf-8编码格式,并展示了将数据以jsonl格式写入文件的方法。同时,提供了获取指定目录下所有子、孙文件列表的函数。
5884

被折叠的 条评论
为什么被折叠?



