python检测文件编码问题

最近处理一堆txt文件时，各种编码错误，意识到主要是文件的编码格式不统一造成的原因。使用chardet进行检测：

    with open(file_path, 'rb') as f:
        s = f.read()
        chatest = chardet.detect(s)
        print(chatest)

检测结果如下：

image.png

每一个文件的检测结果是一个字典，值分别是编码格式，置信度（又多大的概率属于该编码格式），语言类型。

但是仍然有部分文件，使用chatest判断出的的编码格式open，也会报UnicodeDecodeError 问题，这往往是因为该文件内有部分字符无法解码，可以使用errors参数忽略该信息

import codecs
f = codecs.open(file_path, 'r', encoding = 'GB2312', errors='ignore')

最后编辑于：2018.06.05 16:11:14

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

python3编码问题终结者--还搞不懂你来找我
首先需要说明一下，该篇文章是以python3为基础的，python2是否适合没有验证过。由于python编码问题确...
marsggbo阅读 8,314评论 1赞 5
深入分析 Java 中的中文编码问题http://www.ibm.com/developerw...
编码问题一直困扰着开发人员，尤其在 Java 中更加明显，因为 Java 是跨平台语言，不同平台之间编码之间的切换...
x360阅读 7,202评论 1赞 20

恋爱交友|3号优质女生，安静心软的小圣
愿天下所有的好姑娘都有好的爱情 ♡ ♡ ♡ ♡ ♡ 大家好，本期第三期我想为汉子们推荐一个优质妹子，安静且善良的好...
36度区块链阅读 3,097评论 0赞 0
闭包、定时器
什么是闭包? 有什么作用？答：1、闭包是指有权限访问另一个函数作用域中变量的函数,一般情况下在一个函数内部创建另...
浩天天阅读 2,784评论 0赞 0
飞天文？灯笼文？蒲公英文？
大概一年多前开始接触泰语和缅甸语，本来对于从未接触这两种语言的人来说，发音系统和文字系统都极度难以上手。但互相比较...
QIQIBIBI阅读 4,738评论 0赞 2

赞1赞

手机看全文