Python正则表达式匹配HTML页面编码

yipeiwu_com7年前 (2020-03-06)Python基础

html页面一般都会指定一个编码，如何获取到是处理html页面的第一步，因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个：

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'

返回列表

上一篇：Python字符转换

下一篇：PHP生成静态页面详解

Python实现的求解最大公约数算法示例

本文实例讲述了Python实现的求解最大公约数算法。分享给大家供大家参考，具体如下：使用Python求解两个数的最大公约数的时候用到了前面介绍的分解质因式。其实，我写分解质因式程序的时...

python的scikit-learn将特征转成one-hot特征的方法

如下所示： enc = OneHotEncoder(categorical_features=np.array([0,1,2]),n_values=[5,4,2]) enc.f...

python多进程实现进程间通信实例

python中的多线程其实并不是真正的多线程，如果想要充分地使用多核CPU的资源，在python中大部分情况需要使用多进程。Python提供了非常好用的多进程包multiprocessi...

python的多重继承的理解

python的多重继承的理解 Python和C++一样，支持多继承。概念虽然容易，但是困难的工作是如果子类调用一个自身没有定义的属性，它是按照何种顺序去到父类寻找呢，尤其是众多父类中有多...

Python中处理unchecked未捕获异常实例

Talk Is Cheap 和Java一样,python也提供了对于checked exception和unchecked exception. 对于checked exception,...

宜配屋

Python正则表达式匹配HTML页面编码

相关文章

Python实现的求解最大公约数算法示例

python的scikit-learn将特征转成one-hot特征的方法

python多进程实现进程间通信实例

python的多重继承的理解

Python中处理unchecked未捕获异常实例

© YiPeiWu.com 【宜配屋】粤ICP备17031333号

Powered By Z-BlogPHP. Theme by TOYEAN.

宜配屋

Python正则表达式匹配HTML页面编码

相关文章

Python实现的求解最大公约数算法示例

python的scikit-learn将特征转成one-hot特征的方法

python多进程实现进程间通信实例

python的多重继承的理解

Python中处理unchecked未捕获异常实例

© YiPeiWu.com 【宜配屋】 粤ICP备17031333号 var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?8aa60ae04b767b2af31903508928acc0"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

Powered By Z-BlogPHP. Theme by TOYEAN.

© YiPeiWu.com 【宜配屋】粤ICP备17031333号