python使用自定义user-agent抓取网页的方法

yipeiwu_com6年前 (2020-03-06)Python爬虫

本文实例讲述了python使用自定义user-agent抓取网页的方法。分享给大家供大家参考。具体如下：

下面python代码通过urllib2抓取指定的url的内容，并且使用自定义的user-agent，可防止网站屏蔽采集器

import urllib2
req = urllib2.Request('http://192.168.1.2/')
req.add_header('User-agent', 'Mozilla 5.10')
res = urllib2.urlopen(req)
html = res.read()

希望本文所述对大家的Python程序设计有所帮助。

返回列表

爬取网页的流程一般如下：选着要爬的网址（url）使用 python 登录上这个网址（urlopen、requests 等）读取网页信息（read() 出来）将读...

HTML文档是互联网上的主要文档类型，但还存在如TXT、WORD、Excel、PDF、csv等多种类型的文档。网络爬虫不仅需要能够抓取HTML中的敏感信息，也需要有抓取其他类型文档的能力...

直接上代码：复制代码代码如下:#!/usr/bin/python# -*- coding: utf-8 -*- import urllib import os,datetime,st...

一个简单的验证码爬取程序本文介绍了在Python2.7环境下爬取网站验证码：思路就是获取验证码对应的url，然后发起requst请求，读取该URL对应的内容，然后写入到一个本地文件，...

本文实例为大家分享了python爬取51job中hr的邮箱具体代码，供大家参考，具体内容如下 #encoding=utf8 import urllib2 import cookie...

宜配屋