python基于BeautifulSoup实现抓取网页指定内容的方法

yipeiwu_com6年前Python爬虫

本文实例讲述了python基于BeautifulSoup实现抓取网页指定内容的方法。分享给大家供大家参考。具体实现方法如下:

# _*_ coding:utf-8 _*_
#xiaohei.python.seo.call.me:)
#win+python2.7.x
import urllib2
from bs4 import BeautifulSoup
def jd(url):
  page = urllib2.urlopen(url)
  html_doc = page.read()
  soup = BeautifulSoup(html_doc.decode('gb2312','ignore'))
  for i in soup.find_all('div', id="sortlist"):
    one = i.find_all('a')
    two = i.find_all('li')
    print ("%s %s" % (one,two))
jd("http://channel.jd.com/computer.html")

希望本文所述对大家的Python程序设计有所帮助。

相关文章

浅谈Python爬取网页的编码处理

浅谈Python爬取网页的编码处理

背景 中秋的时候,一个朋友给我发了一封邮件,说他在爬链家的时候,发现网页返回的代码都是乱码,让我帮他参谋参谋(中秋加班,真是敬业= =!),其实这个问题我很早就遇到过,之前在爬小说的时候...

在Python3中使用asyncio库进行快速数据抓取的教程

web数据抓取是一个经常在python的讨论中出现的主题。有很多方法可以用来进行web数据抓取,然而其中好像并没有一个最好的办法。有一些如scrapy这样十分成熟的框架,更多的则是像me...

Python中利用aiohttp制作异步爬虫及简单应用

Python中利用aiohttp制作异步爬虫及简单应用

摘要: 简介 asyncio可以实现单线程并发IO操作,是Python中常用的异步处理模块。关于asyncio模块的介绍,笔者会在后续的文章中加以介绍,本文将会讲述一个基于asyncio...

python爬虫爬取淘宝商品信息(selenum+phontomjs)

python爬虫爬取淘宝商品信息(selenum+phontomjs)

本文实例为大家分享了python爬虫爬取淘宝商品的具体代码,供大家参考,具体内容如下 1、需求目标 : 进去淘宝页面,搜索耐克关键词,抓取 商品的标题,链接,价格,城市,旺旺号,付款...

Python Request爬取seo.chinaz.com百度权重网站的查询结果过程解析

Python Request爬取seo.chinaz.com百度权重网站的查询结果过程解析

一:脚本需求 利用Python3查询网站权重并自动存储在本地数据库(Mysql数据库)中,同时导出一份网站权重查询结果的EXCEL表格 数据库类型:MySql 数据库表单名称:webs...