phpsir 开发 一个检测百度关键字网站排名的python 程序

yipeiwu_com5年前Python基础
源码如下 :保存成utf-8 bd.py 文件
复制代码 代码如下:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import sys
import urllib ,urllib2
import re
def baidu(w):
url= "http://www.baidu.com/s?"
values = {
"w":w.encode('gbk','ignore')
}
data = urllib.urlencode(values)
newurl = url + data
response = urllib2.urlopen(newurl)
the_page = response.read().decode('gbk','ignore')
return the_page

def ana(data,mysite):
o = re.compile("href=\"(.+?)\"")
f = o.findall(data)
line = 1
for ff in f:
if not re.search("baidu",ff) and not re.search("^s\?",ff) and re.search("^http:\/\/",ff):
if re.search(mysite,ff):
print "* " ,line ,ff
else:
print line ,ff
line += 1

if __name__ == "__main__":
mysite = sys.argv[2]
data = baidu(sys.argv[1].decode('utf-8'))
ana(data,mysite)

用法 python bd.py "关键字" 我的域名部分 :
例:
复制代码 代码如下:

python bd.py "vbs" "jb51.net"

相关文章

python字典的遍历3种方法详解

python字典的遍历3种方法详解

遍历字典: keys() 、values() 、items()   1. xxx.keys() : 返回字典的所有的key 返回一个序列,序列中保存有字典的所有的键   效果图:   ...

Python中第三方库Requests库的高级用法详解

一、Requests库的安装 利用 pip 安装,如果你安装了pip包(一款Python包管理工具,不知道可以百度哟),或者集成环境,比如Python(x,y)或者anaconda的话...

1分钟快速生成用于网页内容提取的xslt

1分钟快速生成用于网页内容提取的xslt

1分钟快速生成用于网页内容提取的xslt,具体内容如下 1、项目背景 在《Python即时网络爬虫项目说明》一文我们说过要做一个通用的网络爬虫,而且能节省程序员大半的时间,而焦点问题就是...

windows下安装python paramiko模块的代码

1.安装python  windows版本好:python-2.5.1.msi2.安装pycrypto windows版本号:pycrypto-2.0.1.win32-py2....

搞清楚 Python traceback的具体使用方法

1. Python中的异常栈跟踪 之前在做Java的时候,异常对象默认就包含stacktrace相关的信息,通过异常对象的相关方法printStackTrace()和getStackT...