python爬虫获取百度首页内容教学

yipeiwu_com6年前Python爬虫

由传智播客教程整理,我们这里使用的是python2.7.x版本,就是2.7之后的版本,因为python3的改动略大,我们这里不用它。现在我们尝试一下url和网络爬虫配合的关系,爬浏览器首页信息。

1、首先我们创建一个urllib2_test01.py,然后输入以下代码:

2、最简单的获取一个url的信息代码居然只需要4行,执行写的python代码:

3、之后我们会看到一下的结果

4、

实际上,如果我们在浏览器上打开网页主页的话,右键选择“查看源代码”,你会发现,跟我们刚打印出来的是一模一样的。也就是说,上面的4行代码就已经帮我们把百度的首页和全部代码爬了下来了 。

5、下面我们介绍一下这四行代码,第一行如下图,这个就是将urllib2组件进入进来,供给我们使用。

6、图片下面这步骤是调用urllib2库中的urlopen方法,该方法接受一个url地址,然后将请求后的得到的回应封装到一个叫respones对象当中。

7、最后这里,是调用response对象的read()方法,将请求的回应内容以字符串的形式给html变量。最后的print html就是将字符串打出来,所以说一个基本的url请求是对应的python代码是很简单的。

总结:以上就是关于利用python爬虫获取百度信息的步骤内容,感谢大家的学习和对【听图阁-专注于Python设计】的支持。

相关文章

Python爬虫抓取代理IP并检验可用性的实例

经常写爬虫,难免会遇到ip被目标网站屏蔽的情况,银次一个ip肯定不够用,作为节约的程序猿,能不花钱就不花钱,那就自己去找吧,这次就写了下抓取 西刺代理上的ip,但是这个网站也反爬!!!...

selenium+python设置爬虫代理IP的方法

1. 背景 在使用selenium浏览器渲染技术,爬取网站信息时,一般来说,速度是很慢的。而且一般需要用到这种技术爬取的网站,反爬技术都比较厉害,对IP的访问频率应该有相当的限制。所以...

Python制作爬虫采集小说

开发工具:python3.4 操作系统:win8 主要功能:去指定小说网页爬小说目录,按章节保存到本地,并将爬过的网页保存到本地配置文件。 被爬网站:http://www.cishuge...

python抓取最新博客内容并生成Rss

osc的rss不是全文输出的,不开心,所以就有了python抓取osc最新博客生成Rss # -*- coding: utf-8 -*- from bs4 import Beau...

使用python爬取抖音视频列表信息

使用python爬取抖音视频列表信息

如果看到特别感兴趣的抖音vlogger的视频,想全部dump下来,如何操作呢?下面介绍介绍如何使用python导出特定用户所有视频信息 抓包分析 Chrome Deveploer To...