python抓取网页内容示例分享

yipeiwu_com6年前Python爬虫

复制代码 代码如下:

import socket
def open_tcp_socket(remotehost,servicename):
    s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
    portnumber=socket.getservbyname(servicename,'tcp')
    s.connect((remotehost,portnumber))
    return s
mysocket=open_tcp_socket('www.taobao.com','http')
mysocket.send('hello')
while(1):
    data=mysocket.recv(1024)
    if(data):
        print data.decode('gbk').encode('utf-8')#对于gbk编码网页必须这样转化一下
    else:
        break
mysocket.close()

相关文章

python抓取网页中的图片示例

复制代码 代码如下:#coding:utf8import reimport urllibdef getHTML(url):    page = urllib...

python3使用urllib模块制作网络爬虫

urllib urllib模块是python3的URL处理包 其中: 1、urllib.request主要是打开和阅读urls 个人平时主要用的1: 打开对应的URL:urllib.re...

python爬虫之urllib3的使用示例

Urllib3是一个功能强大,条理清晰,用于HTTP客户端的Python库。许多Python的原生系统已经开始使用urllib3。Urllib3提供了很多python标准库urllib里...

python爬取淘宝商品销量信息

python爬取淘宝商品销量的程序,运行程序,输入想要爬取的商品关键词,在代码中的‘###'可以进一步约束商品的属性,比如某某作者的书籍,可以在###处输入作者名字,以及时期等等。最后可...

利用Python爬取可用的代理IP

利用Python爬取可用的代理IP

前言 就以最近发现的一个免费代理IP网站为例:http://www.xicidaili.com/nn/。在使用的时候发现很多IP都用不了。 所以用Python写了个脚本,该脚本可以把能用...