宜配屋

在大的互联网公司干技术的基本都会碰到测试、预发布、线上这种多套环境的，来实现测试和线上正式环境的隔离，这种情况下，就难免会碰到秀逗了把测试的链接发布到线上的情况，一般这种都是通过一些测试的检查工具来检查链接来规避风险的。前两天跟了一个问题也是这个情况，开发疏忽把日常url发布到线上了。但是测试那边没有自动化的监控工具，导致没有及时发现，由于最近正好在看python，后来处理完回家就想用python做个简单的监控。

大略思路是：用python写一个脚本来分析网页里的所有url，看是否包含日常的链接，然后把脚本放到crontab里跑定时任务，10分钟跑一次检查。如果发现非法链接，就发告警邮件给相关人员。脚本代码100行左右，比较好理解，贴上代码。

本来想用beautifulsoup，不过考虑到安装三方库麻烦，所以还是用自带的sgmllib来，不需要关心库。发邮件函数没有实现，根据各自的smtp服务器实现以下即可。

复制代码代码如下:

 
#!/usr/bin/env python 
#coding:UTF-8 

import urllib2 
from sgmllib import SGMLParser 
import smtplib 
import time 
#from email.mime.text import MIMEText 
#from bs4 import BeautifulSoup 
#import re 

class UrlParser(SGMLParser): 
urls = [] 
def do_a(self,attrs): 
'''''parse tag a''' 
for name,value in attrs: 
if name=='href': 
self.urls.append(value) 
else: 
continue 

def do_link(self,attrs): 
'''''parse tag link''' 
for name,value in attrs: 
if name=='href': 
self.urls.append(value); 
else: 
continue 

def checkUrl(checkurl, isDetail): 
'''''检查checkurl对应的网页源码是否有非法url''' 
parser = UrlParser() 
page = urllib2.urlopen(checkurl) 
content = page.read() 
#content = unicode(content, "gb2312").encode("utf8") 
parser.feed(content) 
urls = parser.urls 

dailyUrls = [] 
detailUrl = "" 
for url in urls: 
if 'daily' in url: 
dailyUrls.append(url); 
if not detailUrl and not isDetail and 'www.bc5u.com' in url: 
detailUrl = url 

page.close() 
parser.close() 

if isDetail: 
return dailyUrls 
else: 
return dailyUrls,detailUrl 

def sendMail(): 
'''''发送提醒邮件''' 
pass 

def log(content): 
'''''记录执行日志''' 
logFile = 'checkdailyurl.log' 
f = open(logFile,'a') 
f.write(str(time.strftime("%Y-%m-%d %X",time.localtime()))+content+'\n') 
f.flush() 
f.close() 

def main(): 
'''''入口方法''' 
#检查ju 
url = "www.bc5u.com" 

dailyUrls,detailUrl=checkUrl(url, False) 
if dailyUrls: 
#检查到daily链接，发送告警邮件 
sendMail() 
log('check: find daily url') 
else: 
#没检查到daily链接，不处理 
log('check: not find daily url') 

#检查judetail 
dailyUrls=checkUrl(detailUrl, True) 
if dailyUrls: 
#检查到daily链接，发送告警邮件 
log('check: find daily url') 
sendMail() 
else: 
#没检查到daily链接，不处理 
log('check: not find daily url') 

if __name__ == '__main__': 
main()