python处理“&#”开头加数字的html字符方法

yipeiwu_com6年前Python基础

python如何处理“&#”开头加数字的html字符,比如:风水这类数据。

用python抓取数据时,有时会遇到想要数据是以“&#”开头加数字的字符,比如图中所示的这些:

风水大术士

这些字符需要再次转换才能变回中文内容。这些字符需要再次转换才能变回中文内容。

Python2.7版本

在python2.7版本中,使用import HTMLParser

定义变量,再定义转换代码。

代码中最重要的是“data_parser = HTMLParser.HTMLParser()”,通过此才能用“.unescape()”方法。 

测试运行,这串字符串正常输出了中文。

Python3.7+版本

在最新python版本中,不能用上面的导入方法。可以用"import html"或者“from html import unescape”。这里使用"import html"做测试。

导入html后,直接用".unescape()"来处理字符串。

运行后,正常转换成了中文字符。

感谢大家的阅读和对【听图阁-专注于Python设计】的支持。

相关文章

修改默认的pip版本为对应python2.7的方法

现在系统中同时有python2.7和python3.5 终端输入python跳出来的也是python2.7的信息 但是输入pip -V跳出来的却是对应于pip3.5的 那么解决办法就是...

python启动应用程序和终止应用程序的方法

1. 目的 每天上班,工作需要,电脑上需要每天开机启动一些软件,下班时候,需要关掉一些软件。一个一个打开和关闭貌似是很繁琐的,于是乎,这个脚本产生了。 2. 环境 系统环境: - win...

利用PyCharm操作Github(仓库新建、更新,代码回滚)

利用PyCharm操作Github(仓库新建、更新,代码回滚)

  Github是目前世界上最流行的代码存储和分享平台,而PyCharm是Python圈中最流行的IDE,它很好地支持了Git操作。本文将会介绍如何利用PyCha...

Python环境变量设置方法

Python环境变量设置方法

Alias Maya中的脚本语言是Mel 和 Python,据说Houdini未来也会把Python作为主要的脚本语言,作为影视特效师,掌握Python语言是必备技能;虽然Maya内置了...

Python pip替换为阿里源的方法步骤

Python pip替换为阿里源的方法步骤

背景 由于 python 自带的源下载速度非常慢,特别是安装一些库的时候,甚至有时会失败。 pip国内的一些镜像   阿里云 http://mirror...