项目描述
Chardet:通用字符编码检测器
- 检测
-
- ASCII,UTF-8,UTF-16(2个变体),UTF-32(4个变体)
- Big5,GB2312,EUC-TW,HZ-GB-2312,ISO-2022-CN(繁体中文和简体中文)
- EUC-JP,SHIFT_JIS,CP932,ISO-2022-JP(日语)
- EUC-KR,ISO-2022-KR(韩文)
- KOI8-R,MacCyrillic,IBM855,IBM866,ISO-8859-5,Windows-1251(Cyrillic)
- ISO-8859-5,Windows-1251(保加利亚)
- ISO-8859-1,Windows-1252(西欧语言)
- ISO-8859-7,Windows-1253(希腊语)
- ISO-8859-8,Windows-1255(可视和逻辑希伯来语)
- TIS-620(泰国)
注意
我们的ISO-8859-2和Windows-1250(匈牙利)探测器已被暂时禁用,直到我们可以重新训练模型为止。
需要Python 2.7或3.5+。
文献资料
对于用户而言,现在可以在https://chardet.readthedocs.io/上获取文档。
命令行工具
chardet带有一个命令行脚本,该脚本报告一个或多个文件的编码:
%chardetect somefile someotherfile somefile:Windows-1252置信度为0.5 someotherfile:信心十足的ASCII 1.0
关于
这是Mark Pilgrim出色的夏d舞的延续。以前,需要维护两个版本:一个版本支持python 2.x,另一个版本支持python3.x。我们最近合并伊恩Cordasco的 把戏叉,所以现在我们有一个连贯的版本使用Python作品2.7+和3.4+。