phpsir 开发 一个检测百度关键字网站排名的python 程序

yipeiwu_com6年前Python基础
源码如下 :保存成utf-8 bd.py 文件
复制代码 代码如下:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import sys
import urllib ,urllib2
import re
def baidu(w):
url= "http://www.baidu.com/s?"
values = {
"w":w.encode('gbk','ignore')
}
data = urllib.urlencode(values)
newurl = url + data
response = urllib2.urlopen(newurl)
the_page = response.read().decode('gbk','ignore')
return the_page

def ana(data,mysite):
o = re.compile("href=\"(.+?)\"")
f = o.findall(data)
line = 1
for ff in f:
if not re.search("baidu",ff) and not re.search("^s\?",ff) and re.search("^http:\/\/",ff):
if re.search(mysite,ff):
print "* " ,line ,ff
else:
print line ,ff
line += 1

if __name__ == "__main__":
mysite = sys.argv[2]
data = baidu(sys.argv[1].decode('utf-8'))
ana(data,mysite)

用法 python bd.py "关键字" 我的域名部分 :
例:
复制代码 代码如下:

python bd.py "vbs" "jb51.net"

相关文章

python中requests爬去网页内容出现乱码问题解决方法介绍

最近在学习python爬虫,使用requests的时候遇到了不少的问题,比如说在requests中如何使用cookies进行登录验证,这可以查看这篇文章。这篇博客要解决的问题是如何避免在...

wxPython色环电阻计算器

本文实例为大家分享了wxPython色环电阻计算器的具体代码,供大家参考,具体内容如下 import wx # 导入wxPython class MyFrame(wx.Frame):...

python异步存储数据详解

在Python中,数据存储方式分为同步存储和异步存储。同步写入速度比较慢,而爬虫速度比较快,有可能导致数据保存不完整,一部分数据没有入库。而异步可以将爬虫和写入数据库操作分开执行,互不影...

详解python并发获取snmp信息及性能测试

python & snmp 用python获取snmp信息有多个现成的库可以使用,其中比较常用的是netsnmp和pysnmp两个库。网上有较多的关于两个库的例子。 本文重点在于如何并...

Python cookbook(数据结构与算法)同时对数据做转换和换算处理操作示例

本文实例讲述了Python同时对数据做转换和换算处理操作。分享给大家供大家参考,具体如下: 问题:我们需要调用一个换算函数(例如sum()、min()、max()),但是首先需对数据做转...