pandas中read_csv的缺失值处理方式

yipeiwu_com6年前Python基础

今天遇到的问题是,要将一份csv数据读入dataframe,但某些列中含有NA值。对于这些列来说,NA应该作为一个有意义的level,而不是缺失值,但read_csv函数会自动将类似的缺失值理解为缺失值并变为NaN。

看pandas文档中read_csv函数中这两个参数的描述,默认会将'-1.#IND', ‘1.#QNAN', ‘1.#IND', ‘-1.#QNAN', ‘#N/A N/A','#N/A', ‘N/A', ‘NA', ‘#NA', ‘NULL', ‘NaN', ‘-NaN', ‘nan', ‘-nan', ''转换为NaN,且na_values参数还支持定义另外的应处理为缺失值的值。

值得注意的是keep_default_na参数,这个参数的作用是决定要不要保留默认应该转换的缺失值列表,将这个参数设为False之后同时不定义na_values参数,就可以在读取文件时不将任何值转换为缺失值NaN。

例:

import pandas as pd
df = pd.read_csv('train.csv', keep_default_na=False)

以上这篇pandas中read_csv的缺失值处理方式就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

Python Django2.0集成Celery4.1教程

环境准备 Python3.6 pip install Django==2.0.1 pip install celery==4.1.0 pip install eventlet (加入协程...

python中urlparse模块介绍与使用示例

简介 urlparse模块主要是用于解析url中的参数  对url按照一定格式进行 拆分或拼接。urlparse库用于把url解析为各个组件,支持file,ftp,http,h...

python自动化测试无法启动谷歌浏览器问题

python自动化测试无法启动谷歌浏览器问题

前言 大家在使用python做web端自动化时会出现各种各样的问题,下面我会告诉大家selenium无法启动浏览器的问题 检查是否安装selenium成功 我们可以通过查看seleniu...

python实现根据ip地址反向查找主机名称的方法

本文实例讲述了python实现根据ip地址反向查找主机名称的方法。分享给大家供大家参考。具体如下: import sys, socket try: result = socket...

Python2和Python3.6环境解决共存问题

Linux下安装Python3.6和第三方库 /post/150478.htm 如果本机安装了python2,尽量不要管他,使用python3运行python脚本就好,因为可能有程序依...