解决python爬虫中有中文的url问题

yipeiwu_com6年前Python爬虫

如果URL中存在中文,而你却不对它做任何处理,他不会达到你所想的那样,因此我们需要将中文部分进行处理,要用到urllib.parse模块中的quote将中文转化成URL所需的编码,url中的中文要单独处理,不能中英文全部合在一起处理(因为一部分的特殊字符也会被处理掉)。

import urllib.parse 
 
word='龙' 
word=urllib.parse.quote(word) 
url='https://baike.baidu.com/search/word?word=%s'%word 
print(url) 

运行结果为:

以上这篇解决python爬虫中有中文的url问题就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

Python爬虫获取整个站点中的所有外部链接代码示例

Python爬虫获取整个站点中的所有外部链接代码示例

收集所有外部链接的网站爬虫程序流程图 下例是爬取本站python绘制条形图方法代码详解的实例,大家可以参考下。 完整代码: #! /usr/bin/env python #codi...

Python selenium抓取微博内容的示例代码

Python selenium抓取微博内容的示例代码

Selenium简介与安装 Selenium是什么? Selenium也是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持...

使用scrapy实现爬网站例子和实现网络爬虫(蜘蛛)的步骤

复制代码 代码如下:#!/usr/bin/env python# -*- coding: utf-8 -*- from scrapy.contrib.spiders import Cra...

python3爬虫怎样构建请求header

python3爬虫怎样构建请求header

写一个爬虫首先就是学会设置请求头header,这样才可以伪装成浏览器。下面小编我就来给大家简单分析一下python3怎样构建一个爬虫的请求头header。 1、python3跟2有了细微...

python抓取网页时字符集转换问题处理方案分享

问题提出:     有时候我们采集网页,处理完毕后将字符串保存到文件或者写入数据库,这时候需要制定字符串的编码,如果采集网页的编码是gb2312,而我们的数...