python解决pandas处理缺失值为空字符串的问题

yipeiwu_com6年前Python基础

踩坑记录:

用pandas来做csv的缺失值处理时候发现奇怪BUG,就是excel打开csv文件,明明有的格子没有任何东西,当然,我就想到用pandas的dropna()或者fillna()来处理缺失值。

但是pandas读取csv文件后发现那个空的地方isnull()竟然是false,就是说那个地方有东西。。。

后来经过排查发现看似什么都没有的地方有空字符串,故pandas认为那儿不是缺失值,所以就不能用dropna()或者fillna()来处理。

解决思路:先用正则将空格匹配出来,然后全部替换为NULL,再在用pandas读取csv时候指定 read_csv(na_values='NULL')就是将NULL认为是nan处理,接下来就可以用dropna()或者fillna()来处理了

以上这篇python解决pandas处理缺失值为空字符串的问题就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

Python List列表对象内置方法实例详解

本文实例讲述了Python List列表对象内置方法。分享给大家供大家参考,具体如下: 前言 在上一篇中介绍了Python的序列和String类型的内置方法,本篇继续学习作为序列类型成员...

Python logging设置和logger解析

Python logging设置和logger解析

一、logging模块讲解 1.函数:logging.basicConfig() 参数讲解: (1)level代表高于或者等于这个值时,那么我们才会记录这条日志 (2)filename代...

基于Pandas读取csv文件Error的总结

OSError:报错1 <span style="font-size:14px;">pandas\_libs\parsers.pyx in pandas._libs.pa...

Python中的defaultdict模块和namedtuple模块的简单入门指南

在Python中有一些内置的数据类型,比如int, str, list, tuple, dict等。Python的collections模块在这些内置数据类型的基础上,提供了几个额外的数...

python3 求约数的实例

如下所示: #求一个数的最大约数(不算本身) def getmaxnum(n): num = n //2 while num >1: if n % num ==...