python抓取京东小米8手机配置信息

yipeiwu_com6年前Python爬虫

本文代码是使用python抓取京东小米8手机的配置信息

首先找到小米8商品的链接:https://item.jd.com/7437788.html

然后找到其配置信息的标签,我们找到其配置信息的标签为 <div  class="Ptable"> 

然后再分析其配置信息的页面的规律,我们发现都是dl中包含了dt和dd,而一个dt对应的一个dd,dt对应的是参数,dd对应的是参数具体的值

下面是源代码

import requests
from bs4 import BeautifulSoup
from pandas import Series
from pandas import DataFrame
 
 
response=requests.get("https://item.jd.com/7437788.html")
html=response.text
 
soup=BeautifulSoup(html,"html.parser")
divSoup=soup.find("div",attrs={"class","Ptable"}) ##找到其配置信息的标签
 
data=DataFrame(columns=["参数","值"])   #定义一个二元的DataFrame
dls=divSoup.find_all("dl")
 
for dl in dls:
  dts=dl.find_all("dt")
  dds=dl.find_all("dd")
  if len(dts)==len(dds):
    for i in range(len(dts)):
      f=dts[i].getText();
      p=dds[i].getText();
      data=data.append(Series([f,p],index=["参数","值"]),ignore_index=True);
print(data)

这是最终抓取到的配置信息,一共有64行,这里我就不一一列举出来了 

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法

抓取豆瓣电影TOP100 一、分析豆瓣top页面,构建程序结构 1.首先打开网页http://movie.douban.com/top250?start,也就是top页面 然后试...

Python爬虫小技巧之伪造随机的User-Agent

前言 不管是做开发还是做过网站的朋友们,应该对于User Agent一点都不陌生,User Agent 中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操...

python正则表达式抓取成语网站

1、首先找到一个在线成语网站 2、查看网页结构,定义正则式看一下要抓的成语的标签有什么特点,查看源码,可以发现要抓的成语都在<a>标签中,如:<a href="/cy0...

python urllib爬虫模块使用解析

前言 网络爬虫也称为网络蜘蛛、网络机器人,抓取网络的数据。其实就是用Python程序模仿人点击浏览器并访问网站,而且模仿的越逼真越好。一般爬取数据的目的主要是用来做数据分析,或者公司项目...

Python抓取聚划算商品分析页面获取商品信息并以XML格式保存到本地

本文实例为大家分享了Python抓取聚划算商品页面获取商品信息并保存的具体代码,供大家参考,具体内容如下 #!/user/bin/python # -*- coding: gbk...