浅谈Python采集网页时正则表达式匹配换行符的问题

yipeiwu_com5年前Python基础

如下所示:

p1 = r'(?<=<div class="ds_cr">)(.*?)(?=<div id="pageurl">)' #这样采集html时出错,采集不到数据,正则中 . 是不能匹配换行符,改成如下:
p1 = r'(?<=<div class="ds_cr">)([\s\S]*?)(?=<div id="pageurl">)' # 这是我们写的正则表达式规则,你现在可以不理解啥意思

[\s\S]

\s

匹配任何空白字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。

\S

匹配任何非空白字符。等价于[^ \f\n\r\t\v]。

以上这篇浅谈Python采集网页时正则表达式匹配换行符的问题就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

解决python有时候import不了当前的包问题

解决python有时候import不了当前的包问题

问题描述: ImportError: No module named ‘XXXX' 解决方式一: 将XXXX包放在python的site-package文件夹下 解决方式二: 可能是X...

Python实现PS滤镜碎片特效功能示例

Python实现PS滤镜碎片特效功能示例

本文实例讲述了Python实现PS滤镜碎片特效功能。分享给大家供大家参考,具体如下: 这里用 Python 实现 PS 滤镜中的碎片特效,这个特效简单来说就是将图像在 上,下,左,右 四...

详解opencv中画圆circle函数和椭圆ellipse函数

详解opencv中画圆circle函数和椭圆ellipse函数

1.      void ellipse(InputOutputArray img, Point center, Size axes,...

详解python多线程、锁、event事件机制的简单使用

线程和进程 1、线程共享创建它的进程的地址空间,进程有自己的地址空间 2、线程可以访问进程所有的数据,线程可以相互访问 3、线程之间的数据是独立的 4、子进程复制线程的数据 5、子进...

python 性能提升的几种方法

关于python 性能提升的一些方案。 一、函数调用优化(空间跨度,避免访问内存)  程序的优化核心点在于尽量减少操作跨度,包括代码执行时间上的跨度以及内存中空间跨度。 1.大...