python实现网页链接提取的方法分享

yipeiwu_com6年前Python基础

复制代码 代码如下:

#encoding:utf-8
import socket
import htmllib,formatter
def open_socket(host,servname):
    s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
    port=socket.getservbyname(servname)
    s.connect((host,port))
    return s
host=''
host=input('请输入网址\n')
mysocket=open_socket(host,'http')
message='GET http://%s/\n\n'%(host,)
mysocket.send(message)
file=mysocket.makefile()
htmldata=file.read()
file.close()
parser=htmllib.HTMLParser(formatter.NullFormatter()) 
parser.feed(htmldata)
print '\n'.join(parser.anchorlist)
parser.close()

相关文章

利用Python实现Windows下的鼠标键盘模拟的实例代码

利用Python实现Windows下的鼠标键盘模拟的实例代码

本文介绍了利用Python实现Windows下的鼠标键盘模拟的实例代码,分享给大家 本来用按键精灵是可以实现我的需求,而且更简单,但既然学python ,就看一下呗。 依赖: PyUs...

python 寻找优化使成本函数最小的最优解的方法

今天来学习变量优化问题。寻找使成本函数最小的题解。适用于题解相互独立的情况,设计随机优化算法、爬山法、模拟退火算法、遗传算法。 优化问题的的精髓是:1、将题解转化为数字序列化,可以写出题...

win10系统下python3安装及pip换源和使用教程

win10系统下python3安装及pip换源和使用教程

一、python3的安装 建议安装python3,python2在未来将不再维护。 python官方下载地址 https://www.python.org/downloads/windo...

Python 中Django验证码功能的实现代码

Python 中Django验证码功能的实现代码

  为了防止机器人频繁登陆网站或者破坏分子恶意登陆,很多用户登录和注册系统都提供了图形验证码功能。   验证码(CAPTCHA)是“Completely Automated Public...

利用python批量检查网站的可用性

前言 随着站点的增多,管理复杂性也上来了,俗话说:人多了不好带,我发现站点多了也不好管,因为这些站点里有重要的也有不重要的,重要核心的站点当然就管理的多一些,像一些万年都不出一次问题的,...