python处理“&#”开头加数字的html字符方法

yipeiwu_com6年前Python基础

python如何处理“&#”开头加数字的html字符,比如:风水这类数据。

用python抓取数据时,有时会遇到想要数据是以“&#”开头加数字的字符,比如图中所示的这些:

风水大术士

这些字符需要再次转换才能变回中文内容。这些字符需要再次转换才能变回中文内容。

Python2.7版本

在python2.7版本中,使用import HTMLParser

定义变量,再定义转换代码。

代码中最重要的是“data_parser = HTMLParser.HTMLParser()”,通过此才能用“.unescape()”方法。 

测试运行,这串字符串正常输出了中文。

Python3.7+版本

在最新python版本中,不能用上面的导入方法。可以用"import html"或者“from html import unescape”。这里使用"import html"做测试。

导入html后,直接用".unescape()"来处理字符串。

运行后,正常转换成了中文字符。

感谢大家的阅读和对【听图阁-专注于Python设计】的支持。

相关文章

在Python下使用Txt2Html实现网页过滤代理的教程

在撰写本 developerWorks 系列文章的过程中,我曾遇到过以最佳格式进行撰写的问题。文字处理程序格式都是专用的,在格式之间转换总不能尽如人意,也很麻烦(而且每种格式都会各自将文...

为什么从Python 3.6开始字典有序并效率更高

为什么从Python 3.6开始字典有序并效率更高

在Python 3.5(含)以前,字典是不能保证顺序的,键值对A先插入字典,键值对B后插入字典,但是当你打印字典的Keys列表时,你会发现B可能在A的前面。 但是从Python 3.6...

python 使用while写猜年龄小游戏过程解析

需求: 用户一轮有三次机会进行猜年龄游戏,每猜一次会给相应的提示告知用户应该往大点猜或者小点猜,三次机会用完以后,可选择重新再来三次机会。 思路: 首先定义一个初始年龄为25和初始次数0...

详解python中自定义超时异常的几种方法

最近在项目中调用第三方接口时候,经常会出现请求超时的情况,或者参数的问题导致调用异代码异常。针对超时异常,查询了python 相关文档,没有并发现完善的包来根据用户自定义的时间来抛出超时...

python求解水仙花数的方法

本文实例讲述了python求解水仙花数的方法。分享给大家供大家参考。具体如下: 一个N位的十进制正整数,如果它的每个位上的数字的N次方的和等于这个数本身,则称其为花朵数。 #!/us...