python 采集中文乱码问题的完美解决方法

yipeiwu_com6年前 (2020-03-06)Python基础

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用

import chardet

thischarset = chardet.detect(strs)["encoding"]

来获取该文件或页面的编码方式

或直接抓取页面的charset = xxxx 来获取

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

decode的第二个参数表示遇到非法字符时所采取的方式

该参数默认为抛出异常.

以上就是小编为大家带来的python 采集中文乱码问题的完美解决方法的全部内容了，希望对大家有所帮助，多多支持【听图阁-专注于Python设计】~

返回列表

demo.py（装饰器，带参数的装饰器）： def set_level(level_num): def set_func(func): def call_func(*ar...

今天使用shuffleNetV2+，使用自己的数据集，遇到了loss是nan的情况，而且top1精确率出现断崖式上升，这显示是不正常的。在网上查了下解决方案。我的问题是出在学习率上了...

1. 编译出来的so比网上流传的其他方法小很多。 2. language_level 是python的主版本号，如果python版本是2.x,目前的版本Cython需要人工指...

问题： pydev使用wx库开发的过程中，import时碰到wx可以识别，但是其它很多函数和变量上面全部是红叉，即无法识别。解决方法： 1、window->preferences...

上篇博客也提到这些知识点，可能大家还是不太清楚，这篇博客为大家详细讲解ORM中的几个知识点 1.1首先我们先看一个小案例： #_*_coding:utf-8_*_ from djan...

宜配屋