利用pandas读取中文数据集的方法

yipeiwu_com6年前Python基础

直接利用numpy读取非数字型的数据集时需要先进行转换,而且python3在处理中文数据方面确实比较蛋疼。最近在学习周志华老师的那本西瓜书,需要没事和一堆西瓜反复较劲,之前进行联系的时候都是利用批量替换先清理一遍数据,不过这样实在是太麻烦了,今天偶然发现可以使用pandas来实现读取中文数据集的功能。

首先分享一下数据集:

编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜 
1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是 
2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是 
3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0.264,是 
4,青绿,蜷缩,沉闷,清晰,凹陷,硬滑,0.608,0.318,是 
5,浅白,蜷缩,浊响,清晰,凹陷,硬滑,0.556,0.215,是 
6,青绿,稍蜷,浊响,清晰,稍凹,软粘,0.403,0.237,是 
7,乌黑,稍蜷,浊响,稍糊,稍凹,软粘,0.481,0.149,是 
8,乌黑,稍蜷,浊响,清晰,稍凹,硬滑,0.437,0.211,是 
9,乌黑,稍蜷,沉闷,稍糊,稍凹,硬滑,0.666,0.091,否 
10,青绿,硬挺,清脆,清晰,平坦,软粘,0.243,0.267,否 
11,浅白,硬挺,清脆,模糊,平坦,硬滑,0.245,0.057,否 
12,浅白,蜷缩,浊响,模糊,平坦,软粘,0.343,0.099,否 
13,青绿,稍蜷,浊响,稍糊,凹陷,硬滑,0.639,0.161,否 
14,浅白,稍蜷,沉闷,稍糊,凹陷,硬滑,0.657,0.198,否 
15,乌黑,稍蜷,浊响,清晰,稍凹,软粘,0.36,0.37,否 
16,浅白,蜷缩,浊响,模糊,平坦,硬滑,0.593,0.042,否 
17,青绿,蜷缩,沉闷,稍糊,稍凹,硬滑,0.719,0.103,否 

然后利用pandas将它读进来:

import pandas
d = pandas.read_csv(r"d:\data.csv",sep=",")
print(d)

如果要选取某一行数据,可以使用head方法:

d.head(1)

其中参数是行号。

也可以直接取某一列,如:

d['色泽']

如果要取某一个数据则可以将两种方法结合使用:

d.head(1)['色泽']

以上这篇利用pandas读取中文数据集的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

Python编程pygame模块实现移动的小车示例代码

Python编程pygame模块实现移动的小车示例代码

Pygame是跨平台Python模块,专为电子游戏设计,包含图像、声音。建立在SDL基础上,允许实时电子游戏研发而无需被低级语言(如机器语言和汇编语言)束缚。 最近一个星期学习了一下py...

python的命名规则知识点总结

python命名规则 命名风格 python几种不同命名风格 驼峰式命名法(WjW) 混合式命名法(wjWj) 大写(WJWJWJ)或大写加下划线(WJWJWJ) 前缀(wjing)或后...

零基础使用Python读写处理Excel表格的方法

零基础使用Python读写处理Excel表格的方法

引 由于需要解决大批量Excel处理的事情,与其手工操作还不如写个简单的代码来处理,大致选了一下感觉还是Python最容易操作。 安装库Python环境 首先当然是配环境,不过选Pyth...

Pytorch 实现sobel算子的卷积操作详解

Pytorch 实现sobel算子的卷积操作详解

卷积在pytorch中有两种实现,一种是torch.nn.Conv2d(),一种是torch.nn.functional.conv2d(),这两种方式本质都是执行卷积操作,对输入的要求也...

python里将list中元素依次向前移动一位

问题 定义一个int型的一维数组,包含10个元素,分别赋值为1~10, 然后将数组中的元素都向前移一个位置, 即,a[0]=a[1],a[1]=a[2],…最后一个元素的值是原来第一个元...