python实现网页链接提取的方法分享

yipeiwu_com5年前Python基础

复制代码 代码如下:

#encoding:utf-8
import socket
import htmllib,formatter
def open_socket(host,servname):
    s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
    port=socket.getservbyname(servname)
    s.connect((host,port))
    return s
host=''
host=input('请输入网址\n')
mysocket=open_socket(host,'http')
message='GET http://%s/\n\n'%(host,)
mysocket.send(message)
file=mysocket.makefile()
htmldata=file.read()
file.close()
parser=htmllib.HTMLParser(formatter.NullFormatter()) 
parser.feed(htmldata)
print '\n'.join(parser.anchorlist)
parser.close()

相关文章

caffe binaryproto 与 npy相互转换的实例讲解

在caffe中,如果使用的是c++接口,均值文件默认为.binaryproto格式,而如果使用的是python接口,均值文件默认的是numpy的.npy格式,在工作中有时需要将两者进行互...

酷! 程序员用Python带你玩转冲顶大会

酷! 程序员用Python带你玩转冲顶大会

2018年1月3日,王思聪被迫动用自己的微博,为一个诞生不到10天的App打了广告,“每天我都发奖金,今晚9点就发10万”。对他而言,这天的微博并非生日宴会,而是战场。王思聪的一则微博开...

python技能之数据导出excel的实例代码

python技能之数据导出excel的实例代码

本文介绍了python技能之导出excel的实例代码,正好能用到,写出来分享给大家 作为一个数据分析师,下面的需求是经常会遇到的。 从数据库或者现有的文本文件中提取符合要求的数据,做...

pytorch多进程加速及代码优化方法

目标:优化代码,利用多进程,进行近实时预处理、网络预测及后处理: 本人尝试了pytorch的multiprocessing,进行多进程同步处理以上任务。 from torch.mul...

pycharm 实现显示project 选项卡的方法

pycharm 实现显示project 选项卡的方法

通过project tab查看项目的目录层级结构非常方便,今早打开pycharm后突然就发现自己的pycharm没有project选项卡了,各种折腾,来,记录下吧: 目前的界面是这样的:...