利用pandas读取中文数据集的方法

yipeiwu_com5年前Python基础

直接利用numpy读取非数字型的数据集时需要先进行转换,而且python3在处理中文数据方面确实比较蛋疼。最近在学习周志华老师的那本西瓜书,需要没事和一堆西瓜反复较劲,之前进行联系的时候都是利用批量替换先清理一遍数据,不过这样实在是太麻烦了,今天偶然发现可以使用pandas来实现读取中文数据集的功能。

首先分享一下数据集:

编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜 
1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是 
2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是 
3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0.264,是 
4,青绿,蜷缩,沉闷,清晰,凹陷,硬滑,0.608,0.318,是 
5,浅白,蜷缩,浊响,清晰,凹陷,硬滑,0.556,0.215,是 
6,青绿,稍蜷,浊响,清晰,稍凹,软粘,0.403,0.237,是 
7,乌黑,稍蜷,浊响,稍糊,稍凹,软粘,0.481,0.149,是 
8,乌黑,稍蜷,浊响,清晰,稍凹,硬滑,0.437,0.211,是 
9,乌黑,稍蜷,沉闷,稍糊,稍凹,硬滑,0.666,0.091,否 
10,青绿,硬挺,清脆,清晰,平坦,软粘,0.243,0.267,否 
11,浅白,硬挺,清脆,模糊,平坦,硬滑,0.245,0.057,否 
12,浅白,蜷缩,浊响,模糊,平坦,软粘,0.343,0.099,否 
13,青绿,稍蜷,浊响,稍糊,凹陷,硬滑,0.639,0.161,否 
14,浅白,稍蜷,沉闷,稍糊,凹陷,硬滑,0.657,0.198,否 
15,乌黑,稍蜷,浊响,清晰,稍凹,软粘,0.36,0.37,否 
16,浅白,蜷缩,浊响,模糊,平坦,硬滑,0.593,0.042,否 
17,青绿,蜷缩,沉闷,稍糊,稍凹,硬滑,0.719,0.103,否 

然后利用pandas将它读进来:

import pandas
d = pandas.read_csv(r"d:\data.csv",sep=",")
print(d)

如果要选取某一行数据,可以使用head方法:

d.head(1)

其中参数是行号。

也可以直接取某一列,如:

d['色泽']

如果要取某一个数据则可以将两种方法结合使用:

d.head(1)['色泽']

以上这篇利用pandas读取中文数据集的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

Python实现读取txt文件并转换为excel的方法示例

本文实例讲述了Python实现读取txt文件并转换为excel的方法。分享给大家供大家参考,具体如下: 这里的txt文件内容格式为: 892天平天国定都在?A开封B南京C北京(B)...

Python基础之高级变量类型实例详解

Python基础之高级变量类型实例详解

本文实例讲述了Python高级变量类型。分享给大家供大家参考,具体如下: 目标 列表 元组 字典 字符串 公共方法 变量高级 知识点回顾 Python 中数据类型...

Python中的对象,方法,类,实例,函数用法分析

本文实例分析了Python中的对象,方法,类,实例,函数用法。分享给大家供大家参考。具体分析如下: Python是一个完全面向对象的语言。不仅实例是对象,类,函数,方法也都是对象。 复制...

python数据结构之列表和元组的详解

python数据结构之 列表和元组 序列:序列是一种数据结构,它包含的元素都进行了编号(从0开始)。典型的序列包括列表、字符串和元组。其中,列表是可变的(可以进行修改),而元组和字符串...

python获取微信小程序手机号并绑定遇到的坑

python获取微信小程序手机号并绑定遇到的坑

最近在做小程序开发,在其中也遇到了很多的坑,获取小程序的手机号并绑定就遇到了一个很傻的坑。 流程介绍 官方流程图 小程序使用方法 需要将 <button> 组件 open...