Python对多属性的重复数据去重实例

yipeiwu_com5年前Python基础

python中的pandas模块中对重复数据去重步骤:

1)利用DataFrame中的duplicated方法返回一个布尔型的Series,显示各行是否有重复行,没有重复行显示为FALSE,有重复行显示为TRUE;

2)再利用DataFrame中的drop_duplicates方法用于返回一个移除了重复行的DataFrame。

注释:

如果duplicated方法和drop_duplicates方法中没有设置参数,则这两个方法默认会判断全部咧,如果在这两个方法中加入了指定的属性名(或者称为列名),例如:frame.drop_duplicates(['state']),则指定部分列(state列)进行重复项的判断。

具体实例如下:

>>> import pandas as pd 
>>> data={'state':[1,1,2,2],'pop':['a','b','c','d']} 
>>> frame=pd.DataFrame(data) 
>>> frame 
 pop state 
0 a  1 
1 b  1 
2 c  2 
3 d  2 
>>> IsDuplicated=frame.duplicated() 
>>> print IsDuplicated 
0 False 
1 False 
2 False 
3 False 
dtype: bool 
>>> frame=frame.drop_duplicates(['state']) 
>>> frame 
 pop state 
0 a  1 
2 c  2 
>>> IsDuplicated=frame.duplicated(['state']) 
>>> print IsDuplicated 
0 False 
2 False 
dtype: bool 
>>> 

以上这篇Python对多属性的重复数据去重实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

pymysql 开启调试模式的实现

pymysql 开启调试模式的实现

今天在排查线上一个奇怪的数据库连接问题,所以打开了 pymysql 的源码在阅读,发现 pymysql 在其 connections 模块里内置了一个 DEBUG 变量用于控制是否开启调...

python实现屏保程序(适用于背单词)

python实现屏保程序(适用于背单词)

今天要给大家分享的是一款自己写的屏保程序,大学大家最头疼的就是四六级的考试了,上次考试做阅读的时候,情不自禁的发呆,想着如果我能在电脑上写一个屏保程序,那么就可以天天记单词了! 开始 首...

python利用matplotlib库绘制饼图的方法示例

python利用matplotlib库绘制饼图的方法示例

介绍 matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中。...

Python如何调用JS文件中的函数

Python如何调用JS文件中的函数

Python 调用JS文件中的函数方法如下 1、安装PyExecJS第三方库 2、导入库:import execjs 3、调用JS文件中的方法 Passwd = execjs.c...

Python创建系统目录的方法

本文实例讲述了Python创建系统目录的方法。分享给大家供大家参考。具体如下: Python2 mkdir在没有上级目录时创建会失败.该方法可以创建多级目录。 /temp/gapgers...