Python实现抓取网页生成Excel文件的方法示例

yipeiwu_com6年前Python爬虫

本文实例讲述了Python实现抓取网页生成Excel文件的方法。分享给大家供大家参考,具体如下:

Python抓网页,主要用到了PyQuery,这个跟jQuery用法一样,超级给力

示例代码如下:

#-*- encoding:utf-8 -*-
import sys
import locale
import string
import traceback
import datetime
import urllib2
from pyquery import PyQuery as pq
# 确定运行环境的encoding
reload(sys);
sys.setdefaultencoding('utf8');
f = open('gongsi.csv', 'w');
for i in range(1,24):
  d = pq(url="http://www.yourwebname.com/?Code=HANGYELINGYU&myFlag=allShow&SiteID=122&PageIndex=%d"%(i));
  itemsa=d('dl dt a') #取title元素
  itemsb=d('dl dd') #取title元素
  for j in range(0,len(itemsa)):
    f.write("%s,\"%s\"\n"%(itemsa[j].get('title'),itemsb[j*2].text));
  #end for
#end for
f.close();

接下来就是用Notepad++打开gongsi.csv,然后转成ANSI编码格式,保存。再用Excel软件打开这个csv文件,另存为Excel文件

更多关于Python相关内容感兴趣的读者可查看本站专题:《Python操作Excel表格技巧总结》、《Python文件与目录操作技巧汇总》、《Python文本文件操作技巧汇总》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》及《Python入门与进阶经典教程

希望本文所述对大家Python程序设计有所帮助。

相关文章

python编写网页爬虫脚本并实现APScheduler调度

前段时间自学了python,作为新手就想着自己写个东西能练习一下,了解到python编写爬虫脚本非常方便,且最近又学习了MongoDB相关的知识,万事具备只欠东风。 程序的需求是这样的,...

python通过伪装头部数据抵抗反爬虫的实例

0x00 环境 系统环境:win10 编写工具:JetBrains PyCharm Community Edition 2017.1.2 x64 python 版本:python-3.6...

python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据示例

本文实例讲述了python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据。分享给大家供大家参考,具体如下: # -*- coding:utf-8 -*- #pyt...

Python爬虫框架Scrapy常用命令总结

Python爬虫框架Scrapy常用命令总结

本文实例讲述了Python爬虫框架Scrapy常用命令。分享给大家供大家参考,具体如下: 在Scrapy中,工具命令分为两种,一种为全局命令,一种为项目命令。 全局命令不需要依靠Scra...

python3 Scrapy爬虫框架ip代理配置的方法

python3 Scrapy爬虫框架ip代理配置的方法

什么是Scrapy?   Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,...