python中把ISO-8859-1编码转化为UTF-8

当我们爬取一些页面的中文信息时,会出现如下情况:


11.png

爬取的中文编码格式不是UTF-8,无法正常显示,查看编码格式:


12.png

编码格式为ISO-8859-1(长见识啦~)
我们先定义一个这种编码的字符串:
14.png

先编码


15.png

后解码
16.png

完整流程
13.png

爬取内容变为中文
20.png

encode(编码):按照某种规则将“文本”转换为“字节流”,unicode转化为str

decode(解码):将“字节流”按照某种规则转换成“文本”,str转化为unicode

s.decode(' '):运行会出错。因为python 3中的str类型对象有点像Python 2中的unicode, 而decode是将str转为unicode编码,所以str仅有一个encode方法,调用这个方法后将产生一个编码后的byte类型的字符。
AttributeError: 'str' object has no attribute 'decode'
AttributeError: 'bytes' object has no attribute 'encode'

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 个人笔记,方便自己查阅使用 Py.LangSpec.Contents Refs Built-in Closure ...
    freenik阅读 67,823评论 0 5
  • 字符集和编码简介 在编程中常常可以见到各种字符集和编码,包括ASCII,MBCS,Unicode等字符集。确切的说...
    兰山小亭阅读 12,832评论 0 13
  • Python 面向对象Python从设计之初就已经是一门面向对象的语言,正因为如此,在Python中创建一个类和对...
    顺毛阅读 9,670评论 4 16
  • 六点整时闹钟已经响过一次。六点零五分,学校起床铃像汽笛声缓缓升起。最后一次是在六点十分左右,室友都已将被子叠好离开...
    金野心阅读 3,935评论 1 4
  • 寒假共读书第二天 五年三班关凯元读书时间长四十分钟,妈妈陪读十五分钟
    关凯元阅读 812评论 0 0