yipeiwu_com5年前
编写tasks.py复制代码 代码如下:from celery import Celeryfrom tornado.httpclient import HTTPClientapp = C...
yipeiwu_com5年前
复制代码 代码如下:import socketdef open_tcp_socket(remotehost,servicename): s=socke...
yipeiwu_com5年前
复制代码 代码如下:#!/usr/bin/python#-*-coding:utf-8-*-# JCrawler# Author: Jam <810441377@qq.com>...
yipeiwu_com5年前
复制代码 代码如下:#coding:utf8import reimport urllibdef getHTML(url): page = urllib...
yipeiwu_com5年前
测试url:http://tieba.baidu.com/p/27141123322?pn=begin 1end 4复制代码 代码如下:import...
yipeiwu_com5年前
一、功能说明:1. 多线程方式抓取代理服务器,并多线程验证代理服务器ps 代理服务器是从http://www.cnproxy.com/ (测试只选择了8个页面)抓取2. 抓取一个网站的图...
yipeiwu_com5年前
一、爬虫框架Scarpy简介Scrapy 是一个快速的高层次的屏幕抓取和网页爬虫框架,爬取网站,从网站页面得到结构化的数据,它有着广泛的用途,从数据挖掘到监测和自动测试,Scrapy完全...
yipeiwu_com5年前
使用re, urllib, threading 多线程抓取天涯帖子内容,设置url为需抓取的天涯帖子的第一页,设置file_name为下载后的文件名 复制代码 代码如下:#coding:...
yipeiwu_com5年前
python抓取网站图片并放到指定文件夹 复制代码 代码如下:# -*- coding=utf-8 -*-import urllib2import urllibimport socket...
yipeiwu_com5年前
复制代码 代码如下:#-*- encoding: utf-8 -*-'''Created on 2014-4-24 @author: Leon Wong''' import urllib...