Python打印scrapy蜘蛛抓取树结构的方法

yipeiwu_com6年前 (2020-03-06)Python爬虫

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下：

通过下面这段代码可以一目了然的知道scrapy的抓取页面结构，调用也非常简单

#!/usr/bin/env python
import fileinput, re
from collections import defaultdict
def print_urls(allurls, referer, indent=0):
  urls = allurls[referer]
  for url in urls:
    print ' '*indent + referer
    if url in allurls:
      print_urls(allurls, url, indent+2)
def main():
  log_re = re.compile(r'<GET (.*?)> \(referer: (.*?)\)')
  allurls = defaultdict(list)
  for l in fileinput.input():
    m = log_re.search(l)
    if m:
      url, ref = m.groups()
      allurls[ref] += [url]
  print_urls(allurls, 'None')
main()

希望本文所述对大家的Python程序设计有所帮助。

返回列表

上一篇：Python字符转换

下一篇：PHP生成静态页面详解

Python中使用urllib2模块编写爬虫的简单上手示例

提起python做网络爬虫就不得不说到强大的组件urllib2。在python中正是使用urllib2这个组件来抓取网页的。urllib2是Python的一个获取URLs(Uniform...

Python爬虫包BeautifulSoup简介与安装（一）

先发官方文档的地址：官方文档学习使用的书籍是Python网络数据采集（Ryan Mitchell著），大约是一些笔记的整理。 Beautiful Soup的简介简单来说，Beauti...

python爬虫入门教程--正则表达式完全指南（五）

前言正则表达式处理文本有如疾风扫秋叶，绝大部分编程语言都内置支持正则表达式，它应用在诸如表单验证、文本提取、替换等场景。爬虫系统更是离不开正则表达式，用好正则表达式往往能收到事半功倍的...

浅谈Python爬取网页的编码处理

背景中秋的时候，一个朋友给我发了一封邮件，说他在爬链家的时候，发现网页返回的代码都是乱码，让我帮他参谋参谋(中秋加班，真是敬业= =！)，其实这个问题我很早就遇到过，之前在爬小说的时候...

编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法

抓取豆瓣电影TOP100 一、分析豆瓣top页面，构建程序结构 1.首先打开网页http://movie.douban.com/top250?start，也就是top页面然后试...

宜配屋

Python打印scrapy蜘蛛抓取树结构的方法

相关文章

Python中使用urllib2模块编写爬虫的简单上手示例

Python爬虫包BeautifulSoup简介与安装（一）

python爬虫入门教程--正则表达式完全指南（五）

浅谈Python爬取网页的编码处理

编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法

© YiPeiWu.com 【宜配屋】粤ICP备17031333号

Powered By Z-BlogPHP. Theme by TOYEAN.

宜配屋

Python打印scrapy蜘蛛抓取树结构的方法

相关文章

Python中使用urllib2模块编写爬虫的简单上手示例

Python爬虫包BeautifulSoup简介与安装（一）

python爬虫入门教程--正则表达式完全指南（五）

浅谈Python爬取网页的编码处理

编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法

© YiPeiWu.com 【宜配屋】 粤ICP备17031333号 var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?8aa60ae04b767b2af31903508928acc0"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

Powered By Z-BlogPHP. Theme by TOYEAN.

© YiPeiWu.com 【宜配屋】粤ICP备17031333号