python爬虫之自动登录与验证码识别

yipeiwu_com4年前Python爬虫

在用爬虫爬取网站数据时,有些站点的一些关键数据的获取需要使用账号登录,这里可以使用requests发送登录请求,并用Session对象来自动处理相关Cookie。

另外在登录时,有些网站有时会要求输入验证码,比较简单的验证码可以直接用pytesser来识别,复杂的验证码可以依据相应的特征自己采集数据训练分类器。

以CSDN网站的登录为例,这里用Python的requests库与pytesser库写了一个登录函数。如果需要输入验证码,函数会首先下载验证码到本地,然后用pytesser识别验证码后登录,对于CSDN登录验证码,pytesser的识别率很高。

其中的pytesser的下载地址为: pytesser下载

具体代码如下:

#coding:utf-8
import sys
import time
import urllib
import shutil
import pytesser
import requests

from lxml import etree

config = {'gid': 1}

def parse(s, html, idx):
 result = {}

 tree = etree.HTML(html)
 try:
  result['lt'] = tree.xpath('//input[@name="lt"]/@value')[0]
  result['execution'] = tree.xpath('//input[@name="execution"]/@value')[0]
  result['path'] = tree.xpath('//form[@id="fm1"]/@action')[0]
 except IndexError, e:
  return None

 valimg = None
 valimgs = tree.xpath('//img[@id="yanzheng"]/@src')
 if len(valimgs) > 0:
  valimg = valimgs[0]

 validateCode = None
 if valimg:
  fname = 'img/' + str(idx) + '_' + str(config['gid']) + '.jpg'
  config['gid'] = config['gid'] + 1
  ri = s.get("https://passport.csdn.net" + valimg)
  with open(fname, 'wb') as f:
   for chk in ri:
    f.write(chk)
   f.close()
  validateCode = pytesser.image_file_to_string(fname)
  validateCode = validateCode.strip()
  validateCode = validateCode.replace(' ', '')
  validateCode = validateCode.replace('\n', '')
  result['validateCode'] = validateCode

 return result

def login(usr, pwd, idx):
 s = requests.Session()

 r = s.get('https://passport.csdn.net/account/login',
 headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0', 'Host': 'passport.csdn.net', })

 while True:
  res = parse(s, r.text, idx)
  if res == None:
   return False
  url = 'https://passport.csdn.net' + res['path']
  form = {'username': usr, 'password':pwd, '_eventId':'submit', 'execution':res['execution'], 'lt':res['lt'],}
  if res.has_key('validateCode'):
   form['validateCode'] = res['validateCode']
  s.headers.update({
   'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0',
   'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4',
   'Content-Type': 'application/x-www-form-urlencoded',
   'Host': 'passport.csdn.net',
   'Origin': 'https://passport.csdn.net',
   'Referer': 'https://passport.csdn.net/account/login',
   'Upgrade-Insecure-Requests': 1,
   })
  r = s.post(url, data=form)

  tree = etree.HTML(r.text)
  err_strs = tree.xpath('//span[@id="error-message"]/text()')
  if len(err_strs) == 0:
   return True
  err_str = err_strs[0]
  print err_str
  err = err_str.encode('utf8')

  validate_code_err = '验证码错误'
  usr_pass_err = '帐户名或登录密码不正确,请重新输入'
  try_later_err = '登录失败连续超过5次,请10分钟后再试'

  if err[:5] == validate_code_err[:5]:
   pass
  elif err[:5] == usr_pass_err[:5]:
   return False
  elif err[:5] == try_later_err[:5]:
   return False
  else:
   return True

if __name__ == '__main__':
 main(sys.argv[1], sys.argv[2], 0)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

Python爬虫DNS解析缓存方法实例分析

本文实例讲述了Python爬虫DNS解析缓存方法。分享给大家供大家参考,具体如下: 前言: 这是Python爬虫中DNS解析缓存模块中的核心代码,是去年的代码了,现在放出来 有兴趣的可以...

Python制作爬虫抓取美女图

Python制作爬虫抓取美女图

  作为一个新世纪有思想有文化有道德时刻准备着的屌丝男青年,在现在这样一个社会中,心疼我大慢播抵制大百度的前提下,没事儿上上网逛逛YY看看斗鱼翻翻美女图片那是必不可少的,可是美图虽多翻页...

python实现知乎高颜值图片爬取

导入相关包 import time import pydash import base64 import requests from lxml import etree from...

Python数据抓取爬虫代理防封IP方法

Python数据抓取爬虫代理防封IP方法

爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息,一般来说,Python爬虫程序很多时候都要使用(飞猪IP)代理的IP地址来爬取程序,但是默认的urlopen是无法...

编写Python脚本抓取网络小说来制作自己的阅读器

编写Python脚本抓取网络小说来制作自己的阅读器

你是否苦恼于网上无法下载的“小说在线阅读”内容?或是某些文章的内容让你很有收藏的冲动,却找不到一个下载的链接?是不是有种自己写个程序把全部搞定的冲动?是不是学了 python,想要找点东...