python处理“&#”开头加数字的html字符方法

yipeiwu_com6年前Python基础

python如何处理“&#”开头加数字的html字符,比如:风水这类数据。

用python抓取数据时,有时会遇到想要数据是以“&#”开头加数字的字符,比如图中所示的这些:

风水大术士

这些字符需要再次转换才能变回中文内容。这些字符需要再次转换才能变回中文内容。

Python2.7版本

在python2.7版本中,使用import HTMLParser

定义变量,再定义转换代码。

代码中最重要的是“data_parser = HTMLParser.HTMLParser()”,通过此才能用“.unescape()”方法。 

测试运行,这串字符串正常输出了中文。

Python3.7+版本

在最新python版本中,不能用上面的导入方法。可以用"import html"或者“from html import unescape”。这里使用"import html"做测试。

导入html后,直接用".unescape()"来处理字符串。

运行后,正常转换成了中文字符。

感谢大家的阅读和对【听图阁-专注于Python设计】的支持。

相关文章

对Python进行数据分析_关于Package的安装问题

对Python进行数据分析_关于Package的安装问题

一、为什么要使用Python进行数据分析? python拥有一个巨大的活跃的科学计算社区,拥有不断改良的库,能够轻松的集成C,C++,Fortran代码(Cython项目),可以同时用于...

Django 查询数据库并返回页面的例子

views.py 视图文件 message = None all_message = UserMessage.objects.filter(name='测试2') if...

对Python中range()函数和list的比较

使用Python的人都知道range()函数和list很方便,今天再用到他的时候发现了很多以前看到过但是忘记的细节。这里记录一下range()和list。 >>>...

Python 遍历列表里面序号和值的方法(三种)

Python 遍历列表里面序号和值的方法(三种)

三种遍历列表里面序号和值的方法: 最近学习python这门语言,感觉到其对自己的工作效率有很大的提升,特在情人节这一天写下了这篇博客,下面废话不多说,直接贴代码 #!/usr/bin...

python BeautifulSoup设置页面编码的方法

在用BeautifulSoup进行抓取页面的时候,会各种各样的编码错误。 可以通过在beautifulsoup中指定字符编码,解决问题。 复制代码 代码如下: import urllib...