python处理“&#”开头加数字的html字符方法

yipeiwu_com7年前 (2020-03-06)Python基础

python如何处理“&#”开头加数字的html字符，比如：风水这类数据。

用python抓取数据时，有时会遇到想要数据是以“&#”开头加数字的字符，比如图中所示的这些：

风水大术士

这些字符需要再次转换才能变回中文内容。这些字符需要再次转换才能变回中文内容。

Python2.7版本

在python2.7版本中，使用import HTMLParser

定义变量，再定义转换代码。

代码中最重要的是“data_parser = HTMLParser.HTMLParser()”，通过此才能用“.unescape()”方法。

测试运行，这串字符串正常输出了中文。

Python3.7+版本

在最新python版本中，不能用上面的导入方法。可以用"import html"或者“from html import unescape”。这里使用"import html"做测试。

导入html后，直接用".unescape()"来处理字符串。

运行后，正常转换成了中文字符。

感谢大家的阅读和对【听图阁-专注于Python设计】的支持。

返回列表

我就废话不多说，直接上代码吧！ # -*- coding: utf-8 -*- import cv2 import numpy as np from find_obj import...

具体方法： 1使用panda read_excel 方法加载excel 2使用concat将DataFrame列表进行拼接 3然后使用pd.ExcelWriter对象和to_excel将...

在Python面向对象编程中的类构建中，有时候会遇到@classmethod的用法。总感觉有这种特殊性说明的用法都是高级用法，在我这个层级的水平中一般是用不到的。不过还是好奇去查了一...

1. 前言中文分词≠自然语言处理！ Hanlp HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清...

按照Python官网上的计划，Python3.6正式版期望在2016-12-16号发布，也就是这周五。从去年的5月份开始，Python3.6版本就已经动手开发了，期间也断断续续的发布了4...

宜配屋