【字符编码】PHP导出CSV中文乱码问题研究

这篇博客探讨了PHP在导出CSV文件时遇到的中文乱码问题。作者研究了PHPExcel库的实现,发现默认未开启使用BOM。通过在laravel Excel配置中开启`use_bom`选项为true,解决了大数据量导出时的中文乱码问题。此外,推荐了一篇关于字符编码知识的文章,以帮助理解相关概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


title: 【字符编码】PHP导出CSV中文乱码问题研究
date: 2018-02-02
categories:

  • 技术
    tags:
  • PHP
  • 乱码

没有踩过字符编码问题的程序生涯是不完整的,还记得曾经还踩过Apache+PHP+MySQL的编码问题,不过那时候没总结下来,今天遇到了导出文件的编码问题,一起来好好研究一下:)

推荐一下这篇文章十分钟搞清字符集和字符编码,可以快速了解一下字符编码的知识

业务背景

把数据查询结果导出到CSV,由于Laravel Excel内部实现方法的问题,载入大数据量时,容易爆内存,因此这里分了两种实现,小数据量则采用Laravel Excel,大数据量则使用无缓冲查询+Yield,详情可参考这篇文章【Yield】大数据下的应用

由于使用了Laravel Excel工具集,先来看看这个工具内部是如何实现编码兼容的

# ..\vendor\maatwebsite\excel\src\Maatwebsite\Excel\Writers\LaravelExcelWriter.php
# 约347行
protected function _download(Array $headers = [])
{
    // Set the headers
    $this->_setHeaders(
        $headers,
        [
            'Content-Type'        => $this->contentType,
            'Content-Disposition' => 'attachment; filename="' . $this->filename . '.' . $this->ext . '"',
            'Expires'             => 'Mon, 26 Jul 1997 05:00:00 GMT', // Date in the past
            'Last-Modified'       => Carbon::now()->format('D, d M Y H:i:s'),
            'Cache-Control'       => 'cache, must-revalidate',
            'Pragma'              => 'public'
        ]
    );

    ...
    ..
    .
}

通过区分不同的文件类型设置$this->contentType,但是这里是用来设置浏览器下载的header的,并不是保存为服务器文件,继续找。

查看PHPExcel对CSV格式的兼容性实现

# ..\vendor\phpoffice\phpexcel\Classes\PHPExcel\Writer\CSV.php
# 约116行

if ($this->_excelCompatibility) {
	fwrite($fileHandle, "\xEF\xBB\xBF");	//	Enforce UTF-8 BOM Header
	$this->setEnclosure('"');				//	Set enclosure to "
	$this->setDelimiter(";");			    //	Set delimiter to a semi-colon
    $this->setLineEnding("\r\n");
	fwrite($fileHandle, 'sep=' . $this->getDelimiter() . $this->_lineEnding);
} elseif ($this->_useBOM) {
	// Write the UTF-8 BOM code if required
	fwrite($fileHandle, "\xEF\xBB\xBF");
}

发现$this->_useBOM这个配置项,默认是没有开启的。查看使用LaravelExcel下载的CSV文件的BOM确实没有支持UTF-8

laravel Excel配置开启use_bom

config/excel.php,设置csv的use_bom为true,默认为false

查看BOM

]$ head -c 3 file | hexdump -C

00000000  ef bb bf                                          |...|
00000003

找到问题的关键了,在需要写入文件前,添加UTF-8的BOM即可

fwrite($fp, "\xEF\xBB\xBF"); // 添加 UTF-8 BOM
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值