Python使用scrapy采集数据过程中放回下载过大页面的方法

yipeiwu_com6年前 (2020-03-06)Python基础

本文实例讲述了Python使用scrapy采集数据过程中放回下载过大页面的方法。分享给大家供大家参考。具体分析如下：

添加以下代码到settings.py，myproject为你的项目名称

DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.LimitSizeHTTPClientFactory'

自定义限制下载过大页面的模块

复制代码代码如下:

MAX_RESPONSE_SIZE = 1048576 # 1Mb

from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetter

class LimitSizePageGetter(ScrapyHTTPPageGetter):

    def handleHeader(self, key, value):

        ScrapyHTTPPageGetter.handleHeader(self, key, value)

        if key.lower() == 'content-length' and int(value) > MAX_RESPONSE_SIZE:

            self.connectionLost('oversized')

class LimitSizeHTTPClientFactory(ScrapyHTTPClientFactory):

     protocol = LimitSizePageGetter

希望本文所述对大家的Python程序设计有所帮助。

返回列表

上一篇：Python字符转换

下一篇：PHP生成静态页面详解

使用python3.5仿微软记事本notepad

本文实例为大家分享了python3.5仿微软记事本的具体代码，供大家参考，具体内容如下 from tkinter import filedialog import tkinter a...

Python CSV文件模块的使用案例分析

本文实例讲述了Python CSV文件模块的使用。分享给大家供大家参考，具体如下： 1、CSV模块使用流程 1、导入模块 impport CSV 2、打开文件（xxx.csv）...

基于Python2、Python3中reload()的不同用法介绍

reload() 简介作用：用于重新载入之前载入的模块语法格式：reload(module) 参数：module为模块对象，必须已经被加载返回值：返回模块对象注意事项：多次重复...

Python数据库的连接实现方法与注意事项

在Python中要连接数据库，首先我们得先安装几个重要的东西，主要有：（1）Python-dev包（2）setuptools-0.6c11.tar.gz &n...

基于numpy.random.randn()与rand()的区别详解

numpy 中有一些常用的用来产生随机数的函数，randn()和rand()就属于这其中。 numpy.random.randn(d0, d1, …, dn) 是从标准正态分布中返回一个...

宜配屋

Python使用scrapy采集数据过程中放回下载过大页面的方法

相关文章

使用python3.5仿微软记事本notepad

Python CSV文件模块的使用案例分析

基于Python2、Python3中reload()的不同用法介绍

Python数据库的连接实现方法与注意事项

基于numpy.random.randn()与rand()的区别详解

© YiPeiWu.com 【宜配屋】粤ICP备17031333号

Powered By Z-BlogPHP. Theme by TOYEAN.

宜配屋

Python使用scrapy采集数据过程中放回下载过大页面的方法

相关文章

使用python3.5仿微软记事本notepad

Python CSV文件模块的使用案例分析

基于Python2、Python3中reload()的不同用法介绍

Python数据库的连接实现方法与注意事项

基于numpy.random.randn()与rand()的区别详解

© YiPeiWu.com 【宜配屋】 粤ICP备17031333号 var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?8aa60ae04b767b2af31903508928acc0"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

Powered By Z-BlogPHP. Theme by TOYEAN.

© YiPeiWu.com 【宜配屋】粤ICP备17031333号