python获取指定网页上所有超链接的方法

yipeiwu_com6年前Python基础

本文实例讲述了python获取指定网页上所有超链接的方法。分享给大家供大家参考。具体如下:

这段python代码通过urllib2抓取网页,然后通过简单的正则表达式分析网页上的全部url地址

import urllib2
import re
#connect to a URL
website = urllib2.urlopen(url)
#read html code
html = website.read()
#use re.findall to get all the links
links = re.findall('"((http|ftp)s?://.*?)"', html)
print links

希望本文所述对大家的python程序设计有所帮助。

相关文章

使用pyinstaller打包PyQt4程序遇到的问题及解决方法

使用pyinstaller打包PyQt4程序遇到的问题及解决方法

python pyinstaller pyqt4 打包 QWindows 最近在做课设,用pyqt设计界面。然后用pyinstaller打包程序后,双击运行却总是闪退,后来将exe文件拖...

Python中运行并行任务技巧

Python中运行并行任务技巧

示例 标准线程多进程,生产者/消费者示例: Worker越多,问题越大 复制代码 代码如下: # -*- coding: utf8 -*- import os import time i...

python 并发编程 阻塞IO模型原理解析

python 并发编程 阻塞IO模型原理解析

阻塞IO(blocking IO) 在linux中,默认情况下所有的socket都是blocking,一个典型的读操作流程大概是这样: 当用户进程调用了recvfrom这个系统调用,k...

Python实现快速排序算法及去重的快速排序的简单示例

快速排序由于排序效率在同为O(N*logN)的几种排序方法中效率较高,因此经常被采用。 该方法的基本思想是: 1.先从数列中取出一个数作为基准数。 2.分区过程,将比这个数大的数全放到它...

Django学习教程之静态文件的调用详解

前言 静态文件是指 网站中的 js, css, 图片,视频等文件,本文主要给大家介绍了关于Django学习之静态文件调用的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细...