Python爬虫动态ip代理防止被封的方法

yipeiwu_com6年前 (2020-03-06)Python爬虫

在爬取的过程中难免发生ip被封和403错误等等，这都是网站检测出你是爬虫而进行反爬措施，在这里为大家总结一下怎么用IP代理防止被封

首先，设置等待时间：

常见的设置等待时间有两种，一种是显性等待时间（强制停几秒），一种是隐性等待时间（看具体情况，比如根据元素加载完成需要时间而等待）图1是显性等待时间设置，图2是隐性

第二步，修改请求头：

识别你是机器人还是人类浏览器浏览的重要依据就是User-Agent，比如人类用浏览器浏览就会使这个样子的User-Agent：'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'

第三步，采用代理ip/建代理ip池

直接看代码。利用动态ip代理，可以强有力地保障爬虫不会被封，能够正常运行。图1为使用代理ip的情况，图2是建ip代理池的代码，有没有必要需要看自己的需求，大型项目是必须用大量ip的。

做好以上3个步骤，大致爬虫的运行就不成问题了。

做好以上3个步骤，大致爬虫的运行就不成问题了。

以上就是本次介绍的全部内容，感谢大家的学习和对【听图阁-专注于Python设计】的支持。

返回列表

上一篇：Python字符转换

下一篇：PHP生成静态页面详解

相关文章

Python HTML解析器BeautifulSoup用法实例详解【爬虫解析器】

本文实例讲述了Python HTML解析器BeautifulSoup用法。分享给大家供大家参考，具体如下： BeautifulSoup简介我们知道，Python拥有出色的内置HTML解...

利用python爬取斗鱼app中照片方法实例

利用python爬取斗鱼app中照片方法实例

前言没想到python是如此强大，令人着迷，以前看见图片总是一张一张复制粘贴，现在好了，学会python就可以用程序将一张张图片，保存下来。最近看到斗鱼里的照片都不错，决定用最新学习...

使用python爬取B站千万级数据

使用python爬取B站千万级数据

Python（发音：英[?pa?θ?n]，美[?pa?θɑ:n]），是一种面向对象、直译式电脑编程语言，也是一种功能强大的通用型语言，已经具有近二...

搞定这套Python爬虫面试题(面试会so easy)

搞定这套Python爬虫面试题(面试会so easy)

先来一份完整的爬虫工程师面试考点: 一、 Python 基本功 1、简述Python 的特点和优点 Python 是一门开源的解释性语言，相比 Java C++ 等语言，Python...

Python中Scrapy爬虫图片处理详解

下载图片下载图片有两种方式，一种是通过 Requests 模块发送 get 请求下载，另一种是使用 Scrapy 的 ImagesPipeline 图片管道类，这里主要讲后者。安装...