使用Python抓取模板之家的CSS模板

yipeiwu_com6年前Python爬虫

Python版本是2.7.9,在win8上测试成功,就是抓取有点慢,本来想用多线程的,有事就罢了。模板之家的网站上的url参数与页数不匹配,懒得去做分析了,就自己改代码中的url吧。大神勿喷!

复制代码 代码如下:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# by ustcwq
# 2015-03-15
 
import urllib,urllib2,os,time
from bs4 import BeautifulSoup
 
start = time.clock()
path = os.getcwd()+u'/模板之家抓取的模板/'
if not os.path.isdir(path):
    os.mkdir(path)
 
url = "http://www.cssmoban.com/cssthemes/index_80.shtml"    # 源网站中的index后面数字怎么编排的?
theme_url ='http://www.cssmoban.com/cssthemes/'
response = urllib2.urlopen(url)
soup = BeautifulSoup(response)
result = soup.select('p[class="title"] a')
print result
 
for item in result:
    link = item['href']
    # down_name = item.text   # 文件名称
    new_url = theme_url+link.split('/')[-1]
    response = urllib2.urlopen(new_url)
    soup = BeautifulSoup(response)
    result = soup.select('.btn a')
    down_url = result[1]['href']    # 文件链接
 
    local = path+time.strftime('%Y%m%d%H%M%S',time.localtime(time.time()))+'.zip'
    urllib.urlretrieve(down_url, local) # 远程保存函数
 
end = time.clock()
print u'模板抓取完成!'
print u'一共用时:',end-start,u'秒'

以上所述就是本文的全部内容了,希望大家能够喜欢。

相关文章

Python实现爬取马云的微博功能示例

Python实现爬取马云的微博功能示例

本文实例讲述了Python实现爬取马云的微博功能。分享给大家供大家参考,具体如下: 分析请求 我们打开 Ajax 的 XHR 过滤器,然后一直滑动页面加载新的微博内容,可以看到会不断有A...

Python实现周期性抓取网页内容的方法

本文实例讲述了Python实现周期性抓取网页内容的方法。分享给大家供大家参考,具体如下: 1.使用sched模块可以周期性地执行指定函数 2.在周期性执行指定函数中抓取指定网页,并解析出...

Python3爬虫学习之爬虫利器Beautiful Soup用法分析

Python3爬虫学习之爬虫利器Beautiful Soup用法分析

本文实例讲述了Python3爬虫学习之爬虫利器Beautiful Soup用法。分享给大家供大家参考,具体如下: 爬虫利器Beautiful Soup 前面一篇说到通过urllib.re...

Python爬虫实例爬取网站搞笑段子

众所周知,python是写爬虫的利器,今天作者用python写一个小爬虫爬下一个段子网站的众多段子。 目标段子网站为“http://ishuo.cn/”,我们先分析其下段子的所在子页的u...

使用Python编写爬虫的基本模块及框架使用指南

基本模块  python爬虫,web spider。爬取网站获取网页数据,并进行分析提取。 基本模块使用的是 urllib,urllib2,re,等模块 基本用法,例子: (1...