Python爬虫小技巧之伪造随机的User-Agent

yipeiwu_com6年前
前言 不管是做开发还是做过网站的朋友们,应该对于User Agent一点都不陌生,User Agent 中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操...

Python爬虫常用库的安装及其环境配置

yipeiwu_com6年前
Python爬虫常用库的安装及其环境配置
Python常用库的安装 urllib、re 这两个库是Python的内置库,直接使用方法import导入即可。 在python中输入如下代码: import urllib imp...

python3实现爬取淘宝美食代码分享

yipeiwu_com6年前
python3实现爬取淘宝美食代码分享
环境: ubuntu16.04 python3.5 python库: selenium, pyquery,pymongo, re 要求: 设置×××面浏览器访问,并将商品列表存入mo...

python爬虫之自动登录与验证码识别

yipeiwu_com6年前
在用爬虫爬取网站数据时,有些站点的一些关键数据的获取需要使用账号登录,这里可以使用requests发送登录请求,并用Session对象来自动处理相关Cookie。 另外在登录时,有些网站...

使用Python抓取豆瓣影评数据的方法

yipeiwu_com6年前
使用Python抓取豆瓣影评数据的方法
抓取豆瓣影评评分 正常的抓取 分析请求的url https://movie.douban.com/subject/26322642/comments?start=20&limit=...

Python爬取成语接龙类网站

yipeiwu_com6年前
Python爬取成语接龙类网站
介绍 本文将展示如何利用Python爬虫来实现诗歌接龙。 该项目的思路如下: 利用爬虫爬取诗歌,制作诗歌语料库; 将诗歌分句,形成字典:键(key)为该句首字的拼音,值(value)为...

使用Scrapy爬取动态数据

yipeiwu_com6年前
使用Scrapy爬取动态数据
对于动态数据的爬取,可以选择selenium和PhantomJS两种方式,本文选择的是PhantomJS。 网址: https://s.taobao.com/search?q=笔记本电...

Python爬虫之正则表达式的使用教程详解

yipeiwu_com6年前
Python爬虫之正则表达式的使用教程详解
正则表达式的使用 re.match(pattern,string,flags=0) re.match尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回...

Python 利用scrapy爬虫通过短短50行代码下载整站短视频

yipeiwu_com6年前
Python 利用scrapy爬虫通过短短50行代码下载整站短视频
近日,有朋友向我求助一件小事儿,他在一个短视频app上看到一个好玩儿的段子,想下载下来,可死活找不到下载的方法。这忙我得帮,少不得就抓包分析了一下这个app,找到了视频的下载链接,帮他解...

python3 爬取图片的实例代码

yipeiwu_com6年前
具体代码如下所示: #coding=utf8 from urllib import request import re import urllib,os url='http://t...