python分块读取大数据,避免内存不足的方法

yipeiwu_com6年前Python基础

如下所示:

def read_data(file_name):
 '''
 file_name:文件地址
 '''
 inputfile = open(file_name, 'rb') #可打开含有中文的地址
 data = pd.read_csv(inputfile, iterator=True)
 loop = True
 chunkSize = 1000 #一千行一块
 chunks = []
 while loop:
  try:
   chunk = dcs.get_chunk(chunkSize)
   chunks.append(chunk)
  except StopIteration:
   loop = False
   print("Iteration is stopped.")
 data = pd.concat(chunks, ignore_index=True)
 #print(train.head())
 return data

以上这篇python分块读取大数据,避免内存不足的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

详解如何在Apache中运行Python WSGI应用

在生产环境上,一般会使用比较健壮的Web服务器,如Apache来运行我们的应用。如果我们的Web应用是采用Python开发,而且符合WSGI规范,比如基于Django,Flask等框架,...

Python数组遍历的简单实现方法小结

本文实例总结了Python数组遍历的简单实现方法。分享给大家供大家参考,具体如下: >>> os.__file__.split('\\') ['E:', 'Pyt...

Python3使用xml.dom.minidom和xml.etree模块儿解析xml文件封装函数的方法

总结了一下使用Python对xml文件的解析,用到的模块儿如下: 分别从xml字符串和xml文件转换为xml对象,然后解析xml内容,查询指定信息字段。 from xml.dom.m...

Python list与NumPy array 区分详解

1. 数据类型 type() #!/usr/bin/env python # -*- coding: utf-8 -*- # Yongqiang Cheng from __fut...

python3学习笔记之多进程分布式小例子

python3学习笔记之多进程分布式小例子

最近一直跟着廖大在学Python,关于分布式进程的小例子挺有趣的,这里做个记录。 分布式进程 Python的multiprocessing模块不但支持多进程,其中managers子模块还...