python处理“&#”开头加数字的html字符方法

yipeiwu_com6年前Python基础

python如何处理“&#”开头加数字的html字符,比如:风水这类数据。

用python抓取数据时,有时会遇到想要数据是以“&#”开头加数字的字符,比如图中所示的这些:

风水大术士

这些字符需要再次转换才能变回中文内容。这些字符需要再次转换才能变回中文内容。

Python2.7版本

在python2.7版本中,使用import HTMLParser

定义变量,再定义转换代码。

代码中最重要的是“data_parser = HTMLParser.HTMLParser()”,通过此才能用“.unescape()”方法。 

测试运行,这串字符串正常输出了中文。

Python3.7+版本

在最新python版本中,不能用上面的导入方法。可以用"import html"或者“from html import unescape”。这里使用"import html"做测试。

导入html后,直接用".unescape()"来处理字符串。

运行后,正常转换成了中文字符。

感谢大家的阅读和对【听图阁-专注于Python设计】的支持。

相关文章

Python 中pandas索引切片读取数据缺失数据处理问题

Python 中pandas索引切片读取数据缺失数据处理问题

引入   numpy已经能够帮助我们处理数据,能够结合matplotlib解决我们数据分析的问题,那么pandas学习的目的在什么地方呢? numpy能够帮我们处理处理数值型数据,但是这...

python读取并写入mat文件的方法

先给大家介绍下python读取并写入mat文件的方法 用matlab生成一个示例mat文件: clear;clc matrix1 = magic(5); matrix2 = magi...

PyTorch搭建一维线性回归模型(二)

PyTorch搭建一维线性回归模型(二)

PyTorch基础入门二:PyTorch搭建一维线性回归模型 1)一维线性回归模型的理论基础 给定数据集,线性回归希望能够优化出一个好的函数,使得能够和尽可能接近。 如何才能学习到参数和...

python smtplib模块实现发送邮件带附件sendmail

本文实例为大家分享了python smtplib实现发送邮件的具体代码,供大家参考,具体内容如下 #!/usr/bin/env python # -*- coding: UTF-8...

详解PyTorch批训练及优化器比较

详解PyTorch批训练及优化器比较

一、PyTorch批训练 1. 概述 PyTorch提供了一种将数据包装起来进行批训练的工具——DataLoader。使用的时候,只需要将我们的数据首先转换为torch的tensor形式...