pandas DataFrame 删除重复的行的实现方法

yipeiwu_com5年前Python基础

1. 建立一个DataFrame

 C=pd.DataFrame({'a':['dog']*3+['fish']*3+['dog'],'b':[10,10,12,12,14,14,10]})

2. 判断是否有重复项

用duplicated( )函数判断  

C.duplicated()

3.  有重复项,则可以用drop_duplicates()移除重复项

C.drop_duplicates()

4. Duplicated( )和drop_duplicates( )方法是以默认的方式判断全部的列(上面的例子中是看两个变量a和b是否都是重复出现)。

我们也可以对特定的列进行重复项判断。

 C.duplicated(['a'])   C.drop_duplicates(['a'])

 C.duplicated(['b'])   C.drop_duplicates(['b'])

5.  norepeat_df = df.drop_duplicates(subset=['A_ID', 'B_ID'], keep='first')

#上面的命令去掉UNIT_ID和KPI_ID列中重复的行,并保留重复出现的行中第一次出现的行

补充: 

  • 当keep=False时,就是去掉所有的重复行 
  • 当keep=‘first'时,就是保留第一次出现的重复行 
  • 当keep='last'时就是保留最后一次出现的重复行。 

(注意,这里的参数是字符串,要加引号!!!)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

python3安装crypto出错及解决方法

首先我用的python3.5的版本 问题的由来,我想通过python去实现RSA加密算法时,破解某网站的js加密认证,网上说需要安装pycrypto,我就去进行pip安装了 pip...

Python设计模式之工厂模式简单示例

Python设计模式之工厂模式简单示例

本文实例讲述了Python设计模式之工厂模式。分享给大家供大家参考,具体如下: 工厂模式是一个在软件开发中用来创建对象的设计模式。 工厂模式包涵一个超类。这个超类提供一个抽象化的接口来创...

django 解决manage.py migrate无效的问题

问题描述: 已有的model,修改之后,想重新建模,于是将migrations文件夹中除__init__.py之外其他文件都删掉,再次执行以下步骤python manage.py mak...

Python实现截取PDF文件中的几页代码实例

截取PDF文件中的几页有很多做法。 1. 把文件用Google的Chrome浏览器打开,打印其中几页,另存为PDF。简单。 2. 安装Adobe的Acrobat,里面会有更全的功能。然而...

Python实现从百度API获取天气的方法

本文实例讲述了Python实现从百度API获取天气的方法。分享给大家供大家参考。具体实现方法如下: 复制代码 代码如下:__author__ = 'saint' import os im...