总结python爬虫抓站的实用技巧

yipeiwu_com5年前
总结python爬虫抓站的实用技巧
前言 写过的这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,累积不少爬虫抓站的经验,在此总结一下,那么以后做东西也就不用重复劳动了。 1.最基本的抓站 impor...

Python抓取框架 Scrapy的架构

yipeiwu_com5年前
Python抓取框架 Scrapy的架构
最近在学Python,同时也在学如何使用python抓取数据,于是就被我发现了这个非常受欢迎的Python抓取框架Scrapy,下面一起学习下Scrapy的架构,便于更好的使用这个工具。...

利用Python爬取可用的代理IP

yipeiwu_com5年前
利用Python爬取可用的代理IP
前言 就以最近发现的一个免费代理IP网站为例:http://www.xicidaili.com/nn/。在使用的时候发现很多IP都用不了。 所以用Python写了个脚本,该脚本可以把能用...

教你用python3根据关键词爬取百度百科的内容

yipeiwu_com5年前
前言 关于python版本,我一开始看很多资料说python2比较好,因为很多库还不支持3,但是使用到现在为止觉得还是pythin3比较好用,因为编码什么的问题,觉得2还是没有3方便。而...

Python爬取京东的商品分类与链接

yipeiwu_com5年前
Python爬取京东的商品分类与链接
前言 本文主要的知识点是使用Python的BeautifulSoup进行多层的遍历。 如图所示。只是一个简单的哈,不是爬取里面的隐藏的东西。 示例代码 from bs4 impor...

Python爬虫爬取美剧网站的实现代码

yipeiwu_com5年前
Python爬虫爬取美剧网站的实现代码
一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间。之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了。但是,作为...

Python爬取三国演义的实现方法

yipeiwu_com5年前
本文的爬虫教程分为四部:      1.从哪爬 where      2.爬什么 what  &...

Python 爬虫学习笔记之正则表达式

yipeiwu_com5年前
Python 爬虫学习笔记之正则表达式
正则表达式的使用 想要学习 Python 爬虫 , 首先需要了解一下正则表达式的使用,下面我们就来看看如何使用。 . 的使用这个时候的点就相当于一个占位符,可以匹配任意一个字符,什么意思...

Python 爬虫学习笔记之单线程爬虫

yipeiwu_com5年前
Python 爬虫学习笔记之单线程爬虫
介绍 本篇文章主要介绍如何爬取麦子学院的课程信息(本爬虫仍是单线程爬虫),在开始介绍之前,先来看看结果示意图 怎么样,是不是已经跃跃欲试了?首先让我们打开麦子学院的网址,然后找到麦子学...

Python 爬虫学习笔记之多线程爬虫

yipeiwu_com5年前
Python 爬虫学习笔记之多线程爬虫
XPath 的安装以及使用 1 . XPath 的介绍 刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省...