浅谈Python采集网页时正则表达式匹配换行符的问题

yipeiwu_com6年前 (2020-03-06)Python基础

如下所示：

p1 = r'(?<=<div class="ds_cr">)(.*?)(?=<div id="pageurl">)' #这样采集html时出错，采集不到数据，正则中 . 是不能匹配换行符，改成如下：
p1 = r'(?<=<div class="ds_cr">)([\s\S]*?)(?=<div id="pageurl">)' # 这是我们写的正则表达式规则，你现在可以不理解啥意思

[\s\S]

匹配任何空白字符，包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。

匹配任何非空白字符。等价于[^ \f\n\r\t\v]。

以上这篇浅谈Python采集网页时正则表达式匹配换行符的问题就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持【听图阁-专注于Python设计】。

返回列表

上一篇：Python字符转换

下一篇：PHP生成静态页面详解

Python函数装饰器实现方法详解

本文实例讲述了Python函数装饰器实现方法。分享给大家供大家参考，具体如下：编写函数装饰器这里主要介绍编写函数装饰器的相关内容。跟踪调用如下代码定义并应用一个函数装饰器，来统计...

Python常用特殊方法实例总结

本文实例讲述了Python常用特殊方法。分享给大家供大家参考，具体如下： 1 __init__和__new__ __init__方法用来初始化类实例；__new__方法用来创建类实例。...

Python中使用socket发送HTTP请求数据接收不完整问题解决方法

由于工作的需求，需要用python做一个类似网络爬虫的采集器。虽然Python的urllib模块提供更加方便简洁操作，但是涉及到一些底层的需求，如手动设定User-Agent,Refer...

pandas Dataframe行列读取的实例

如下所示： import matplotlib.pyplot as plt import tkinter import numpy as np import pandas as...

Python安装第三方库及常见问题处理方法汇总

源码安装 Python第三方库几乎都可以在github或者 pypi上找到源码。源码包格式大概有zip 、 tar.zip、 tar.bz2。解压这些包，进入解压好的文件夹，通常会有一个...

宜配屋

浅谈Python采集网页时正则表达式匹配换行符的问题

相关文章

Python函数装饰器实现方法详解

Python常用特殊方法实例总结

Python中使用socket发送HTTP请求数据接收不完整问题解决方法

pandas Dataframe行列读取的实例

Python安装第三方库及常见问题处理方法汇总

© YiPeiWu.com 【宜配屋】粤ICP备17031333号

Powered By Z-BlogPHP. Theme by TOYEAN.

宜配屋

浅谈Python采集网页时正则表达式匹配换行符的问题

相关文章

Python函数装饰器实现方法详解

Python常用特殊方法实例总结

Python中使用socket发送HTTP请求数据接收不完整问题解决方法

pandas Dataframe行列读取的实例

Python安装第三方库及常见问题处理方法汇总

© YiPeiWu.com 【宜配屋】 粤ICP备17031333号 var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?8aa60ae04b767b2af31903508928acc0"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

Powered By Z-BlogPHP. Theme by TOYEAN.

© YiPeiWu.com 【宜配屋】粤ICP备17031333号