python 遍历字符串(含汉字)实例详解

yipeiwu_com6年前Python基础

python 遍历字符串(含汉字)实例详解

s = "中国china"
for j in s:
  print j

首先一个,你这个'a'是什么编码?可能不是你所想的gbk

>>> a='中国'
>>> a

这样试试看,如果出来是6个字(word),说明是utf-8,如果是4个字,说明gbk。

另外,不管是utf-8还是gbk,都不能这样遍历,因为这里它会一个字一个字拿出来。虚拟机把a当成一个长度为len(a)的字符串了。

接下来是遍历问题。

Linux的shell大都默认是utf-8,所以一个中文字符是三个字,所以要三个三个地读,你可以试下:

>>> a[:3]

出来就是个”中”字

windows的command的默认是cp936,也就是gbk,一个中文字符是两个字,所以两个字两个字地读(a[:2])。

还有另一种遍历的方法,把字符串转换成unicode,这样中文英文都是一个字,就可以用你的for i in a的方法遍历了。这个的好处是中文英文字符都是一个字,而utf-8和gbk里,英文字母只占一个字。

s = u"中国china"
for j in s:
  print j

输出如下:

中
国
c
h
i
n
a

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

相关文章

python中正则的使用指南

python中正则的使用指南

上一次很多朋友写文字屏蔽说到要用正则表达,其实不是我不想用(我正则用得不是很多,看过我之前爬虫的都知道,我直接用BeautifulSoup的网页标签去找内容,因为容易理解也方便,),而是...

pytorch中的卷积和池化计算方式详解

pytorch中的卷积和池化计算方式详解

TensorFlow里面的padding只有两个选项也就是valid和same pytorch里面的padding么有这两个选项,它是数字0,1,2,3等等,默认是0 所以输出的h和w的...

python框架django基础指南

Django简介: Django是一个开放源代码的Web应用框架,由Python写成。采用了MVC的框架模式,即模型M,视图V和控制器C。不过在Django实际使用中,Django更关注...

简单掌握Python的Collections模块中counter结构的用法

counter 是一种特殊的字典,主要方便用来计数,key 是要计数的 item,value 保存的是个数。 from collections import Counter >...

Python Pywavelet 小波阈值实例

小波应用比较广泛,近期想使用其去噪。由于网上都是matlib实现,故记下一下Python的使用 Pywavelet  Denoising 小波去噪  # -*-...