python抓取网页内容示例分享

yipeiwu_com6年前 (2020-03-06)Python爬虫

import socket
def open_tcp_socket(remotehost,servicename):
    s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
    portnumber=socket.getservbyname(servicename,'tcp')
    s.connect((remotehost,portnumber))
    return s
mysocket=open_tcp_socket('www.taobao.com','http')
mysocket.send('hello')
while(1):
    data=mysocket.recv(1024)
    if(data):
        print data.decode('gbk').encode('utf-8')#对于gbk编码网页必须这样转化一下
    else:
        break
mysocket.close()

返回列表

上一篇：Python字符转换

下一篇：PHP生成静态页面详解

零基础写python爬虫之神器正则表达式

接下来准备用糗百做一个爬虫的小例子。但是在这之前，先详细的整理一下Python中的正则表达式的相关内容。正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样，是必不可少...

解决python3爬虫无法显示中文的问题

有时候使用python从网站上爬数据的时候，如果数据里包含中文，有时候显示的却是如下所示...\xe4\xba\xba\xef\xbc\x8c\xe6...类似与国际化解决方法：...

Python打印scrapy蜘蛛抓取树结构的方法

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下：通过下面这段代码可以一目了然的知道scrapy的抓取页面结构，调用也非常简单 #!/...

python脚本爬取字体文件的实现方法

前言大家应该都有所体会，为了提高验证码的识别准确率，我们当然要首先得到足够多的测试数据。验证码下载下来容易，但是需要人脑手工识别着实让人受不了，于是我就想了个折衷的办法——自己造验证码...

Python实现可获取网易页面所有文本信息的网易网络爬虫功能示例

本文实例讲述了Python实现可获取网易页面所有文本信息的网易网络爬虫功能。分享给大家供大家参考，具体如下： #coding=utf-8 #---------------------...

宜配屋

python抓取网页内容示例分享

相关文章

零基础写python爬虫之神器正则表达式

解决python3爬虫无法显示中文的问题

Python打印scrapy蜘蛛抓取树结构的方法

python脚本爬取字体文件的实现方法

Python实现可获取网易页面所有文本信息的网易网络爬虫功能示例

© YiPeiWu.com 【宜配屋】粤ICP备17031333号

Powered By Z-BlogPHP. Theme by TOYEAN.

宜配屋

python抓取网页内容示例分享

相关文章

零基础写python爬虫之神器正则表达式

解决python3爬虫无法显示中文的问题

Python打印scrapy蜘蛛抓取树结构的方法

python脚本爬取字体文件的实现方法

Python实现可获取网易页面所有文本信息的网易网络爬虫功能示例

© YiPeiWu.com 【宜配屋】 粤ICP备17031333号 var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?8aa60ae04b767b2af31903508928acc0"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

Powered By Z-BlogPHP. Theme by TOYEAN.

© YiPeiWu.com 【宜配屋】粤ICP备17031333号