Python提取网页中超链接的方法

yipeiwu_com6年前Python基础

下面是最简单的实现方法,先将目标网页抓回来,然后通过正则匹配a标签中的href属性来获得超链接

代码如下:

import urllib2
import re
 
url = 'http://www.sunbloger.com/'
 
req = urllib2.Request(url)
con = urllib2.urlopen(req)
doc = con.read()
con.close()
 
links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc)
for a in links:
  print a

总结

以上就是这篇文章的全部内容,希望本文的内容对大家的学习或者工作能有所帮助,如果有疑问大家可以留言交流。

相关文章

python利用不到一百行代码实现一个小siri

python利用不到一百行代码实现一个小siri

前言 如果想要容易理解核心的特征计算的话建议先去看看我之前的听歌识曲的文章,传送门:/post/97305.htm 本文主要是实现了一个简单的命令词识别程序,算法核心一是提取音频特征,二...

Python文本特征抽取与向量化算法学习

Python文本特征抽取与向量化算法学习

本文为大家分享了Python文本特征抽取与向量化的具体代码,供大家参考,具体内容如下 假设我们刚看完诺兰的大片《星际穿越》,设想如何让机器来自动分析各位观众对电影的评价到底是“赞”(po...

Python3几个常见问题的处理方法

1. 编码问题: 遇到了几个字符串转换问题,总结如下: # str to bytes str.encode(s) # bytes to str bytes.decode(b)...

详解python之heapq模块及排序操作

说到排序,很多人可能第一想到的就是sorted,但是你可能不知道python中其实还有还就中方法哟,并且好多种场景下效率都会比sorted高。那么接下来我就依次来介绍我所知道的排序操作。...

python操作CouchDB的方法

本文简单讲述了python操作CouchDB的方法,分享给大家供大家参考。具体方法如下: 1.安装python couchDb库: https://pypi.python.org/pyp...