在php编程中,经常会导出数据为excel或csv文件,不过为了操作方便,大多时候我们会用php导出csv文件。
CSV,Comma Separator Value,常常用来数据转换的中间文件存在。
使用utf-8编码导出CSV文件,打开后中文成了乱码(Windows下CSV文件默认与Microsoft Excel关联),用Notepad++或者Word打开正常。
原因分析:
BOM惹的祸,微软惹的祸。
什么是BOM?Byte Order Mark。
为了识别 Unicode 文件,Microsoft 建议所有的 Unicode 文件应该以 ZERO WIDTH NObreak SPACE字符开头。这作为一个"特征符"或"字节顺序标记(byte-order mark,BOM)"来识别文件中使用的编码和字节顺序(big-endian或little-endian),具体的对应关系见下表。
Unix系统中并没有使用 BOM,因为它会破坏现有的 ASCII 文件的语法约定。
php源码文件是用NotePad++生成的,在centos下执行,格式为:以UTF-8无BOM格式编码,因此要想导出Microsoft Excel可以正常显示的UTF-8的CSV文件,需要显式的输出BOM(EF BB BF,上表的最后一种类型),然后再输出mysql中的有效数据。
实现如下的php函数:
总结:
1,output_csv函数使用前,确保php源码是utf-8,并且无BOM,并且没有输出任何内容。
2,BOM实际上挺烦人,如果网页(*.html)有BOM,在IE6.x下打开会发现空行,Firefox下没有。