python获取字符串编码(chardet模块)

发布时间:2019-09-16编辑:脚本学堂
python处理字符时,如何正确处理字符串编码问题,可以借助chardet编码识别模块,灵活转换字符串编码,这里分享一个例子,供大家参考。

在处理字符串时,在不知道字符串是何种编码时,则不能进行有效的字符串编码转换,面对多种不同编码的输入方式,是否会有一种有效的编码方式?

推荐使用chardet模块,chardet是一个非常优秀的编码识别模块。(pythonmokuai/ target=_blank class=infotextkey>python模块)

下载地址:http://pypi.python.org/pypi/chardet

使用中,chardet.detect()返回字典,其中confidence是检测精确度,encoding是编码形式。

代码:
 

复制代码 代码示例:
#!/usr/bin/env python
#
import chardet
 
charset = chardet.detect(html)
print charset

运行结果:
{'confidence': 0.99, 'encoding': 'GB2312'}