Python简单实现网页内容抓取功能示例

yipeiwu_com6年前Python爬虫

本文实例讲述了Python简单实现网页内容抓取功能。分享给大家供大家参考,具体如下:

使用模块:

import urllib2 
import urllib

普通抓取实例:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib2
url = 'http://www.baidu.com'
#创建request对象
request = urllib2.Request(url)
#发送请求,获取结果
try:
 response = urllib2.urlopen(request)
except BaseException, err:
 print err
 exit()
#获取状态码,如果是200表示获取成功
code = response.getcode()
print code
#读取内容
if 200 == code:
 content = response.read() 
 print content

Get请求抓取实例:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib2
import urllib
#urllib2使用GET方式的请求
url = 'http://www.baidu.com/s'
values = {'wd' : '车云'}
# 必须编码
data = urllib.urlencode(values) 
url = url + '?' + data 
print url
#url == http://www.baidu.com/s?wd=%E8%BD%A6%E4%BA%91
#创建request对象
request = urllib2.Request(url)
#发送请求,获取结果
try:
 response = urllib2.urlopen(request)
except BaseException, err:
 print err
 exit()
#获取状态码,如果是200表示获取成功
code = response.getcode()
print code
#读取内容
if 200 == code:
 content = response.read() 
 print content

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总

希望本文所述对大家Python程序设计有所帮助。

相关文章

Python使用代理抓取网站图片(多线程)

一、功能说明:1. 多线程方式抓取代理服务器,并多线程验证代理服务器ps 代理服务器是从http://www.cnproxy.com/ (测试只选择了8个页面)抓取2. 抓取一个网站的图...

Python 用Redis简单实现分布式爬虫的方法

Redis通常被认为是一种持久化的存储器关键字-值型存储,可以用于几台机子之间的数据共享平台。 连接数据库 注意:假设现有几台在同一局域网内的机器分别为Master和几个Slaver...

Python3简单爬虫抓取网页图片代码实例

现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例...

python实现的一只从百度开始不断搜索的小爬虫

文中用到了BeautifulSoup这个库, 目的是处理html文档分析的, 因为我只是提取了title的关键字,所以可以用正则表达式代替, 还有一个库是jieba, 这个库是中文分词的作用, 再有一...

Python爬虫爬取Bilibili弹幕过程解析

Python爬虫爬取Bilibili弹幕过程解析

先来思考一个问题,B站一个视频的弹幕最多会有多少? 比较多的会有2000条吧,这么多数据,B站肯定是不会直接把弹幕和这个视频绑在一起的。 也就是说,有一个视频地址为https://www...