python 采集中文乱码问题的完美解决方法

yipeiwu_com6年前 (2020-03-06)Python基础

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用

import chardet

thischarset = chardet.detect(strs)["encoding"]

来获取该文件或页面的编码方式

或直接抓取页面的charset = xxxx 来获取

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

decode的第二个参数表示遇到非法字符时所采取的方式

该参数默认为抛出异常.

以上就是小编为大家带来的python 采集中文乱码问题的完美解决方法的全部内容了，希望对大家有所帮助，多多支持【听图阁-专注于Python设计】~

返回列表

问题产生描述使用子进程处理一个大的日志文件，并对文件进行分析查询，需要等待子进程执行的输出结果，进行下一步处理。出问题的代码 # 启用子进程执行外部shell命令 def __s...

在使用Python编写的应用的过程中，有时候会遇到多个文件之间传递同一个全局变量的情况。本文就此给出了如下的解决方法供大家参考。文件1：globalvar.py #!/usr/bi...

PIL 图片操作读取图片 img = Image.open(“a.jpg”) 显示图片 im.show() # im是Image对象，im是numpy类型，通过Image.f...

本文实例为大家分享了python模拟登录图书馆的具体代码，供大家参考，具体内容如下模拟表单提交的原理：我们都知道Http是无状态的,所以当我们提交的数据和浏览器中正常提交一样，那么...

linecache模块接触到linecache这个模块是因为前两天读attrs源码的时候看到内部代码引用了这个模块来模拟一个假文件，带着一脸疑问顺便读了一下这个模块的源码，发现其实也就...

宜配屋