python处理“&#”开头加数字的html字符方法

yipeiwu_com6年前Python基础

python如何处理“&#”开头加数字的html字符,比如:风水这类数据。

用python抓取数据时,有时会遇到想要数据是以“&#”开头加数字的字符,比如图中所示的这些:

风水大术士

这些字符需要再次转换才能变回中文内容。这些字符需要再次转换才能变回中文内容。

Python2.7版本

在python2.7版本中,使用import HTMLParser

定义变量,再定义转换代码。

代码中最重要的是“data_parser = HTMLParser.HTMLParser()”,通过此才能用“.unescape()”方法。 

测试运行,这串字符串正常输出了中文。

Python3.7+版本

在最新python版本中,不能用上面的导入方法。可以用"import html"或者“from html import unescape”。这里使用"import html"做测试。

导入html后,直接用".unescape()"来处理字符串。

运行后,正常转换成了中文字符。

感谢大家的阅读和对【听图阁-专注于Python设计】的支持。

相关文章

浅析Python函数式编程

Functional Programming,函数式编程。Python对函数式编程提供部分支持。对于纯函数编程,对任一函数,只要输入是确定的,输出就是确定的,可称之为无副作用。 一、高阶...

在Python的web框架中中编写日志列表的教程

在Python的web框架中中编写日志列表的教程

MVVM模式不但可用于Form表单,在复杂的管理页面中也能大显身手。例如,分页显示Blog的功能,我们先把后端代码写出来: 在apis.py中定义一个Page类用于存储分页信息: c...

python实现高斯投影正反算方式

使用Python实现了一下我们同事的C++高斯投影正反算,实际跑通,可用。 #!/ usr/bin/python # -*- coding:utf-8 -*- import mat...

python每天定时运行某程序代码

思路:利用time函数返回的时间字符串与指定时间字符串做比较,相等的时候执行对应的操作。不知道大家的思路是什么,感觉这样比较耗CPU。。。。 此处设置为15:30:10 输出相应内容,需...

对python中基于tcp协议的通信(数据传输)实例讲解

对python中基于tcp协议的通信(数据传输)实例讲解

阅读目录 tcp协议:流式协议(以数据流的形式通信传输)、安全协议(收发信息都需收到确认信息才能完成收发,是一种双向通道的通信) tcp协议在OSI七层协议中属于传输层,它上承用户层的数...