python抓取京东小米8手机配置信息

yipeiwu_com6年前Python爬虫

本文代码是使用python抓取京东小米8手机的配置信息

首先找到小米8商品的链接:https://item.jd.com/7437788.html

然后找到其配置信息的标签,我们找到其配置信息的标签为 <div  class="Ptable"> 

然后再分析其配置信息的页面的规律,我们发现都是dl中包含了dt和dd,而一个dt对应的一个dd,dt对应的是参数,dd对应的是参数具体的值

下面是源代码

import requests
from bs4 import BeautifulSoup
from pandas import Series
from pandas import DataFrame
 
 
response=requests.get("https://item.jd.com/7437788.html")
html=response.text
 
soup=BeautifulSoup(html,"html.parser")
divSoup=soup.find("div",attrs={"class","Ptable"}) ##找到其配置信息的标签
 
data=DataFrame(columns=["参数","值"])   #定义一个二元的DataFrame
dls=divSoup.find_all("dl")
 
for dl in dls:
  dts=dl.find_all("dt")
  dds=dl.find_all("dd")
  if len(dts)==len(dds):
    for i in range(len(dts)):
      f=dts[i].getText();
      p=dds[i].getText();
      data=data.append(Series([f,p],index=["参数","值"]),ignore_index=True);
print(data)

这是最终抓取到的配置信息,一共有64行,这里我就不一一列举出来了 

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

Python实现抓取HTML网页并以PDF文件形式保存的方法

本文实例讲述了Python实现抓取HTML网页并以PDF文件形式保存的方法。分享给大家供大家参考,具体如下: 一、前言 今天介绍将HTML网页抓取下来,然后以PDF保存,废话不多说直接进...

详解python 爬取12306验证码

详解python 爬取12306验证码

一个简单的验证码爬取程序 本文介绍了在Python2.7环境下爬取网站验证码: 思路就是获取验证码对应的url,然后发起requst请求,读取该URL对应的内容,然后写入到一个本地文件,...

Python爬虫包BeautifulSoup学习实例(五)

本文为大家分享了Python爬虫包BeautifulSoup学习实例,具体内容如下 BeautifulSoup 使用BeautifulSoup抓取豆瓣电影的一些信息。 # -*- c...

选择Python写网络爬虫的优势和理由

选择Python写网络爬虫的优势和理由

什么是网络爬虫? 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过...

零基础写python爬虫之神器正则表达式

零基础写python爬虫之神器正则表达式

接下来准备用糗百做一个爬虫的小例子。 但是在这之前,先详细的整理一下Python中的正则表达式的相关内容。 正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样,是必不可少...