php汉字编码转换方法精讲_php编码

php汉字编码转换方法精讲: 发布时间：2020-04-24编辑：脚本学堂

本文介绍了php中汉字编码转换的一些知识，分析了php编码转换的原理与方法，有需要的朋友参考下。

有关对mysql4.1字符集的理解，再讲述如何php如何适应mysql的这种变化。
同样适用于mysql5及以上的版本。

一．原理篇
mysql的字符集里有两个概念，一个是“character set（字符集）”，另一个是“collations”。
1. collations
collations翻成中文是“校验”，在网页开发的过程中，这个词汇，只在mysql里使用，主要作用是指导mysql对字符的比较，比如， ascii字符集里，collations规定了a小于b，a等于a，以及a是否等于a之类的。通常，大家基本可以忽略collations的存在，因为每个字符集都有一个默认的collations，通常，使用默认的collations就可以了。
2.字符集
与这对比的是，字符集是个更广的概念，即使是windows下普通的文本文件，也渗及到字符集的问题。不同的字符集，规定了不同的字符的编码方式。一个 character set (字符集)是一组符号和编码，比如，ascii字符集，包括的字符有：数字，大小写字母，分号、换行之类的符号，编码方式是用一个7bit表示一个字符（a的编码是65，b的编码是98）。ascii只规定了英文字母的编码，非英文语言不能用ascii编码表示，为此，不同的国家，都为自己的语言做了编码，比如，我们国家，就有gb2312编码。但每个国家之间的编码不同，也存在着一些跨平台的问题，为此，一些国际化标准组织，就制定了一些国际通用的编码，最常用的就是utf8了。ascii只对英文符号和英文字母做了编码，gb2312对英文符号，英文字母，汉字做了编码，utf8对世界上所有的语言文字做了编码，所以，gb1212的字符包含了ascii字符，utf8包含了gb2312字符。由此可见，utf8是所含最广字符的字符集，所以，在一些多语言的web系统中，一般用utf8字符集（phpmyadmin使用utf8编码）。
任何文本的存储，都渗及到字符集的概念。包括数据库，也包括普通的文本文件。

主要术语：
字符：汉字，英文字母，标点符号，拉丁文等等。
编码：将字符转换成计算机存储的格式，比如，a用65表示。
字符集：一组字符以及对应的编码方式。
a. mysql的字符集
mysql目前支持多字符集，并且，支持在不同的字符集之间转换（便于移植和支持多语言）。
mysql可以设置服务器级字符集、数据库级字符集、数据表级字符集、表列的字符集，实际上，最终使用字符集的地方是存储字符的列，比如，你设置 table1中col1列是字符类型，col1才用到了字符集，如果table1表的col2列是int类型，col2不使用字符集的概念。
服务器级字符集、数据库级字符集、数据表级字符集都是为列的字符集做默认选项的。
mysql一定有一个字符集，可以通过启动时加参数指定，也可以编译时指定，也可以在配置文件里指定。mysql服务器字符集，只是做为数据库级的默认值。创建数据库时，你可以指定字符集，如果没指定，就使用服务器的字符集。同理，创建表时，你可以指定表级的字符集，如果没指定，使用数据库的字符集做为表的字符集。创建列时，你可以指定某列的字符集，如果没指定，就使用表的字符集。
通常情况下，您只需设置服务器级的字符集，其它的数据库级，表级，以及列级的字符集，都继承自服务器级字符集。
由于utf8是最广的字符集，所以，一般情况下，我们设置mysql服务器级的字符集为utf8！

b. 普通文本的字符集问题
任何文本的存储，都存在着字符集的问题，普通文本文件也不例外。
windows2000+的系统中，打开记事本，“保存为…”对话框，就有一个选项，可以让你选择存储文本的编码方式。
通常情况下，大家都使用windows2000+的系统，都使用默认的编码，所以，不会碰到字符集的问题。
windows下，保存文本文件时，可以选择编码方式，但打开文本文件时，都是自动判断编码方式的。网上有一个用windows2000+的记事本玩移动，联通的笑话，大家可以搜搜，就是因为windows在打开文本文件时，编码判断错误引起的问题。
因为自动判断编码有时会错误，所以，有的文本文件，规定了如何识别自身所使用的编码。html文件就是一个这样的例子。
html是文本文件。存储html文件的时候，需要使用一个编码，并且，在html文件里，也使用html语法，指定了该文件所使用的编码（比如）。如果html文件没有指定编码，则浏览器自动识别文件的编码。如果html指定了编码，则浏览器使用html指定的编码。
通常情况下，html文件指定的charset和html文件自身的编码是一致的，但也有不一致的情况，如果不一致，就会导致网页乱码(此处乱码，只和文本文件有关，和数据库无关。)使用专门的网页编辑工具（比如dreamwave），会自动根据网页中的charset值来编码文件。

c. php+mysql的字符集问题
php最终生成的是文本文件，但他要取数据库里的文本，或将文本存进数据库。
由于mysql支持多字符集，默认情况下，mysql不知道php发给他的是什么编码的字符，所以，mysql要求客户端（php）告诉他存取的字符集是什么。
php通过设置character_set_client，告诉mysql，php存进数据库的是什么编码方式。
php通过设置character_set_results，告诉mysql，php需要取什么样编码的数据。
php通过设置character_set_connection，告诉mysql，php查询中的文本，使用什么编码。
mysql使用设置的编码方式存储文本。
假设mysql使用setserver来存储文本，php的character_set_client是setclient，php的 character_set_results是setresult。那么，mysql将php发来的文本，从setclient编码方式，转换成 setserver编码方式，再存入数据库，如果php取文本，mysql将文本从setserver转换成setresult，再发送给php。
php文件（最终生成的html文件）本身有个编码，如果mysql传过来的编码，与php文件自身的编码不同，那么，整个网页，必然乱码。所以，php一般将自己的编码方式，告诉mysql。
要保证不乱码，就必须将三个编码统一：一是网页自身的编码，二是html里指定的编码，三是php告诉mysql的编码(包括character_set_client和character_set_results)。
第一和第二个编码，如果使用dw之类的编辑器写的网页，通常是一致的，但用记事本写的网页，有可能不一致。
第三个编码，需要手工通知mysql。这步可以通过在php里使用mysql_query(“set names characterx”)来实现。

d.字符集的转换问题
如果小字集转换成大字符集，不会丢失数据，但大字集，转换成小字集，可能会丢失数据。
比如，utf8里有的字符，gb2312不一定有，所以，从utf8转换到gb2312可能会丢失一些字符。
但有种情况例外，先从gb2312转成utf8，再从utf8转成gb2312，这种情况是不会丢数据的，因为，刚开始转换的文本，都是gb2312里的字符，所以，整个过程都是gb2312的字符在转换，不会丢失。
正因为utf8能容纳世界上的所有字符，所以，数据库一般使用utf8编码。这使得，任何字符都可以存进utf8编码的数据库。

e. phpmyadmin乱码的问题
phpmyadmin支持多国语言，这就必定要求html页面使用utf8编码。
html页面使用utf8编码，这就必定要求phpmyadmin连接mysql时，character_set_client和character_set_results使用utf8编码。
当前情况下，php连接mysql只能是使用set names(或其它几个语句)来通知mysql的编码方式，如果没有显式的声明编码方式，都将使用latin1编码。一般的程序，都没有显式声明 character_set_client变量，所以，都是将gb2312文本，按latin1编码方式存在数据库，phpmyadmin再用utf8格式读取，肯定是乱码的。
如果php程序按正确的编码存入数据库，肯定是没有问题的。所以，需要修改的不是phpmyadmin.（虽然有时修改phpmyadmin可以解决乱码问题，但这不是问题的根本）

二．总结篇

1.数据库尽量使用utf8存储（修改/etc/my.cnf，在[mysqld]段加上default-character-set=utf8）
(已有的数据库，先转成utf8格式)
2.php程序在查询数据库之前，执行mysql_query(“set names xxxx”);其中xxxx是你网页的编码(charset=xxxx)，如果网页中charset=utf8，则xxxx=utf8，如果网页中 charset=gb2312，则xxxx=gb2312，如果网页中的charset=ipaddr，则xxxx=ipaddr (开个玩笑，没这编码)
几乎所有web程序，都有一段连接数据库的公共代码，放在一个文件里，在这文件里，加入mysql_query(“set names”)就可以了。
3.phpmyadmin不需要做改动。
4.注意，为保证网页实际编码(windows保存对话框里的编码)和他声明的编码(charset=?)是一致的，请用dw之类的工具做网页。

上一篇：php汉字unicode编码与解码
下一篇：php中utf-8编码解决十法

与 php汉字编码转换方法精讲有关的文章

本文标题：php汉字编码转换方法精讲
本页链接：http://www.jb200.com/article/18222.html

浏览排行

热点文章

php汉字编码转换方法精讲