pandas 实现将重复表格去重,并重新转换为表格的方法

yipeiwu_com6年前Python基础

在python处理数据时,经常用到DataFrame和set。

train=pd.read_csv('XXX.csv')#读取文件 
train=train['item_id']#选择要去重的列 
train=set(train)#去重 
data=pd.DataFrame(list(train),columns=['item_id'])#因为set是无序的,必须要经过list处理后才能成为DataFrame 
data.to_csv('xxx.csv',index=False)#保存表格 

记得导入pandas哦~

以上这篇pandas 实现将重复表格去重,并重新转换为表格的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

Python素数检测的方法

本文实例讲述了Python素数检测的方法。分享给大家供大家参考。具体如下: 因子检测: 检测因子,时间复杂度O(n^(1/2)) def is_prime(n): if n &l...

深入理解Python中装饰器的用法

因为函数或类都是对象,它们也能被四处传递。它们又是可变对象,可以被更改。在函数或类对象创建后但绑定到名字前更改之的行为为装饰(decorator)。 “装饰器”后隐藏了两种意思——一是函...

flask框架自定义过滤器示例【markdown文件读取和展示功能】

本文实例讲述了flask框架自定义过滤器。分享给大家供大家参考,具体如下: 除了一些内置的join length safe等过滤器外, flask还提供了自定义过滤器的功能. 一. 自定...

详谈pandas中agg函数和apply函数的区别

在利用python进行数据分析 这本书中其实没有明确表明这两个函数的却别,而是说apply更一般化. 其实在这本书的第九章‘数组及运算和转换'点到了两者的一点点区别:agg是用来聚合运算...

解决python gdal投影坐标系转换的问题

要将xian80地理坐标系转换成投影坐标系: xian1980 = """ GEOGCS["GCS_Xian_1980", DATUM["Xian_1980", SPHE...