【文本处理】无法解析的CSV文件

乱码奇糟

已于 2023-07-27 11:18:06 修改

阅读量542

点赞数

分类专栏：软件开发文章标签：前端 python 开发语言经验分享笔记

于 2023-07-27 11:14:57 首次发布

版权

29 篇文章

订阅专栏

今天写了一个Python读取CSV文件的程序。自己测试完全没有问题，给同事去用却没能正确处理文件的内容。同事用Excel打开CSV查了好半天，然后把问题打回给我。

读取了该文件的内容一查，果然这是一个BOM文件。BOM：是Byte Order Mark的缩写。这是一个多字节的Unicode字符（Unicode有多种标准，有些标准里一个字符的长度是不固定的），这个字符用来指明：

BOM在Unicode文件中是可选的，而且在很多系统中是不建议的。文本处理程序在按照字节读取文件内容的时候如果没有正确处理BOM就会产生错误。另外，BOM在某些编辑器中是不可见的（如Windows的记事本），因此你可能在查找问题的时候还看不到它。

还遇到过的一个问题：在文本文件的拼接和嵌入时没有处理好BOM，造成了拼接后的文件中间（不是文件开头）出现了异常字符，影响了显示结果。

如过你处理的文本来自不同的系统，请注意编码问题和BOM字符的过滤。