玩转python爬虫之URLError异常处理

yipeiwu_com5年前
本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理。 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网...

玩转python爬虫之正则表达式

yipeiwu_com5年前
玩转python爬虫之正则表达式
面对大量杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式! 1.了解正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特...

玩转python爬虫之爬取糗事百科段子

yipeiwu_com5年前
玩转python爬虫之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧。那么这次为大家带来,Python爬取糗事百科的小段子的例子。 首先,糗事百科大家都听说过吧?糗友们发的搞笑的...

Python多线程、异步+多进程爬虫实现代码

yipeiwu_com5年前
安装Tornado 省事点可以直接用grequests库,下面用的是tornado的异步client。 异步用到了tornado,根据官方文档的例子修改得到一个简单的异步爬虫类。可以参考...

讲解Python的Scrapy爬虫框架使用代理进行采集的方法

yipeiwu_com5年前
1.在Scrapy工程下新建“middlewares.py” # Importing base64 library because we'll need it ONLY in cas...

Python使用爬虫猜密码

yipeiwu_com5年前
Python使用爬虫猜密码
我们可以通过python 来实现这样一个简单的爬虫猜密码功能。下面就看看如何使用python来实现这样一个功能。 这里我们知道用户的昵称为:heibanke 密码是30以内的一个数...

Python 多线程抓取图片效率对比

yipeiwu_com5年前
目的: 是学习python 多线程的工作原理,及通过抓取400张图片这种IO密集型应用来查看多线程效率对比 import requests import urlparse imp...

python 网络爬虫初级实现代码

yipeiwu_com5年前
首先,我们来看一个Python抓取网页的库:urllib或urllib2。 那么urllib与urllib2有什么区别呢? 可以把urllib2当作urllib的扩增,比较明显的优势是u...

python 写的一个爬虫程序源码

yipeiwu_com5年前
写爬虫是一项复杂、枯噪、反复的工作,考虑的问题包括采集效率、链路异常处理、数据质量(与站点编码规范关系很大)等。整理自己写一个爬虫程序,单台服务器可以启用1~8个实例同时采集,然后将数据...

用Python编写简单的微博爬虫

yipeiwu_com5年前
用Python编写简单的微博爬虫
先说点题外话,我一开始想使用Sina Weibo API来获取微博内容,但后来发现新浪微博的API限制实在太多,大家感受一下: 只能获取当前授权的用户(就是自己),而且只能返回最新的...