python BeautifulSoup设置页面编码的方法

yipeiwu_com6年前Python基础

在用BeautifulSoup进行抓取页面的时候,会各种各样的编码错误。
可以通过在beautifulsoup中指定字符编码,解决问题。

复制代码 代码如下:

import urllib2 
from BeautifulSoup import BeautifulSoup 
 
page = urllib2.urlopen('http://www.163.com'); 
soup = BeautifulSoup(page,from_encoding="gb2312") 
 
print soup.originalEncoding
print soup.prettify() 

红色部分表示需要注意的地方。在BeautifulSoup构造器中传入fromEncoding参数即可解决乱码问题,当然具体参数值是什么就要看你获取页面的编码是什么

相关文章

Django实现表单验证

本文实例为大家分享了Django实现表单验证的具体代码,供大家参考,具体内容如下 models.py class Users(models.Model): nickname =...

python2.7的编码问题与解决方法

前言 Python的编码问题基本是每个新手都会遇到的坎,但只要完全掌握了就跳过了这个坑,万变不离其中,下面给大家整理了在python2.7遇到的编码问题,下面来一起看看吧。 一、直接在p...

python 自定义装饰器实例详解

本文实例讲述了python 自定义装饰器。分享给大家供大家参考,具体如下: 先看一个例子 def deco(func): print("before myfunc() calle...

Python实现115网盘自动下载的方法

本文实例讲述了Python实现115网盘自动下载的方法。分享给大家供大家参考。具体实现方法如下: 实例中的1.txt,是网页http://bbs.pediy.com/showthread...

python顺序的读取文件夹下名称有序的文件方法

如下所示: import os path="/home/test/" #待读取的文件夹 path_list=os.listdir(path) path_list.sort() #对读...