Python提取网页中超链接的方法

yipeiwu_com7年前 (2020-03-06)Python基础

下面是最简单的实现方法，先将目标网页抓回来，然后通过正则匹配a标签中的href属性来获得超链接

代码如下：

import urllib2
import re
 
url = 'http://www.sunbloger.com/'
 
req = urllib2.Request(url)
con = urllib2.urlopen(req)
doc = con.read()
con.close()
 
links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc)
for a in links:
  print a

总结

以上就是这篇文章的全部内容，希望本文的内容对大家的学习或者工作能有所帮助，如果有疑问大家可以留言交流。

返回列表

上一篇：Python字符转换

下一篇：PHP生成静态页面详解

Python中声明只包含一个元素的元组数据方法

调试程序的时候，就吃过这个亏，不知道为何Python使用括号做元组声明边界符，估计是找不到合适的符号了。中括号用来声明列表，花括号用来声明字典，元组号只能用括号来声明了。有其他语言编程经...

解决python3中解压zip文件是文件名乱码的问题

在zip标准中，对文件名的 encoding 用的不是 unicode，而可能是各种软件根据系统的默认字符集来采用（此为猜测），因此zipfile中根据文件 flag 检测的时候，只支持...

python语言线程标准库threading.local解读总结

本段源码可以学习的地方： 1. 考虑到效率问题，可以通过上下文的机制，在属性被访问的时候临时构建； 2. 可以重写一些魔术方法，比如 __new__ 方法，在调用 object.__ne...

python 寻找list中最大元素对应的索引方法

如下所示： aa = [1,2,3,4,5] aa.index(max(aa)) 如果aa是numpy数组： aa = numpy.array([1,2,3,4,5]) 先...

Python 数据处理库 pandas 入门教程基本操作

pandas是一个Python语言的软件包，在我们使用Python语言进行机器学习编程的时候，这是一个非常常用的基础编程库。本文是对它的一个入门教程。 pandas提供了快速，灵活和富有...

宜配屋

Python提取网页中超链接的方法

相关文章

Python中声明只包含一个元素的元组数据方法

解决python3中解压zip文件是文件名乱码的问题

python语言线程标准库threading.local解读总结

python 寻找list中最大元素对应的索引方法

Python 数据处理库 pandas 入门教程基本操作

© YiPeiWu.com 【宜配屋】粤ICP备17031333号

Powered By Z-BlogPHP. Theme by TOYEAN.

宜配屋

Python提取网页中超链接的方法

相关文章

Python中声明只包含一个元素的元组数据方法

解决python3中解压zip文件是文件名乱码的问题

python语言线程标准库threading.local解读总结

python 寻找list中最大元素对应的索引方法

Python 数据处理库 pandas 入门教程基本操作

© YiPeiWu.com 【宜配屋】 粤ICP备17031333号 var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?8aa60ae04b767b2af31903508928acc0"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

Powered By Z-BlogPHP. Theme by TOYEAN.

© YiPeiWu.com 【宜配屋】粤ICP备17031333号