Python使用urllib2模块抓取HTML页面资源的实例分享

yipeiwu_com5年前 (2020-03-06)Python爬虫

先把要抓取的网络地址列在单独的list文件中

//www.jb51.net/article/83440.html
//www.jb51.net/article/83437.html
//www.jb51.net/article/83430.html
//www.jb51.net/article/83449.html

然后我们来看程序操作，代码如下：

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '?' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'

返回列表

上一篇：Python字符转换

下一篇：PHP生成静态页面详解

python微信聊天机器人改进版(定时或触发抓取天气预报、励志语录等,向好友推送)

最近想着做一个微信机器人，主要想要实现能够每天定时推送天气预报或励志语录，励志语录要每天有自动更新，定时或当有好友回复时，能够随机推送不同的内容。于是开始了分析思路。博主是采用了多线程群...

Python基于BeautifulSoup和requests实现的爬虫功能示例

本文实例讲述了Python基于BeautifulSoup和requests实现的爬虫功能。分享给大家供大家参考，具体如下：爬取的目标网页：http://www.qianlima.com...

Python实现的爬虫刷回复功能示例

本文实例讲述了Python实现的爬虫刷回复功能。分享给大家供大家参考，具体如下：最近闲的无聊，就想着去看看爬虫，顺着爬虫顺利的做到了模拟登录、刷帖子等等，这里简要说一下。使用Pyth...

Python爬虫动态ip代理防止被封的方法

在爬取的过程中难免发生ip被封和403错误等等，这都是网站检测出你是爬虫而进行反爬措施，在这里为大家总结一下怎么用IP代理防止被封首先，设置等待时间：常见的设置等待时间有两种，一种是...

python爬取酷狗音乐排行榜

本文为大家分享了python爬取酷狗音乐排行榜的具体代码，供大家参考，具体内容如下 #coding=utf-8 from pymongo import MongoClient im...

宜配屋

Python使用urllib2模块抓取HTML页面资源的实例分享

相关文章

python微信聊天机器人改进版(定时或触发抓取天气预报、励志语录等,向好友推送)

Python基于BeautifulSoup和requests实现的爬虫功能示例

Python实现的爬虫刷回复功能示例

Python爬虫动态ip代理防止被封的方法

python爬取酷狗音乐排行榜

© YiPeiWu.com 【宜配屋】粤ICP备17031333号

Powered By Z-BlogPHP. Theme by TOYEAN.

宜配屋

Python使用urllib2模块抓取HTML页面资源的实例分享

相关文章

python微信聊天机器人改进版(定时或触发抓取天气预报、励志语录等,向好友推送)

Python基于BeautifulSoup和requests实现的爬虫功能示例

Python实现的爬虫刷回复功能示例

Python爬虫动态ip代理防止被封的方法

python爬取酷狗音乐排行榜

© YiPeiWu.com 【宜配屋】 粤ICP备17031333号 var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?8aa60ae04b767b2af31903508928acc0"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

Powered By Z-BlogPHP. Theme by TOYEAN.

© YiPeiWu.com 【宜配屋】粤ICP备17031333号