python批量读取txt文件为DataFrame的方法

yipeiwu_com5年前Python基础

我们有时候会批量处理同一个文件夹下的文件,并且希望读取到一个文件里面便于我们计算操作。比方我有下图一系列的txt文件,我该如何把它们写入一个txt文件中并且读取为DataFrame格式呢?

首先我们要用到glob模块,这个python内置的模块可以说是非常的好用。

glob.glob('*.txt') 

得到如下结果:

all.txt是我最后得到的结果文件。可以见返回的是一个包含txt文件名称的列表,当然如果你的文件夹下面只有txt文件,那么你用os.listdir()可以得到一个一样的列表

然后读取的时候只要注意txt文件的编码格式(可以用notepad++打开记事本查看)和间隔符的形式就好了,完整的代码如下:

import os
import pandas
import codecs
import glob
import pandas as pd
os.getcwd()
os.chdir('D:\AAAASXQ\python study\data preprocessing')
def txtcombine():
 
 files = glob.glob('*.txt')
 
 all = codecs.open('all.txt','a')
 
 for filename in flist: 
 print(filename) 
 fopen=codecs.open(filename,'r',encoding='utf-8') 
 lines=[] 
 lines=fopen.readlines() 
 fopen.close() 
 i=0 
 for line in lines: 
  for x in line: 
  all.write(x)
 #读取为DataFrame格式
 all1 = pd.read_csv('all.txt',sep=' ',encoding='GB2312')
 #保存为csv格式
 all1.to_csv('all.csv',encoding='GB2312')
 
if __name__ == '__main__': 
 txtcombine()

以上这篇python批量读取txt文件为DataFrame的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

python常用web框架简单性能测试结果分享(包含django、flask、bottle、tornado)

测了一下django、flask、bottle、tornado 框架本身最简单的性能。对django的性能完全无语了。 django、flask、bottle 均使用gunicorn+g...

Python 正则表达式入门(中级篇)

初级篇链接:/post/99372.htm 上一篇我们说在这一篇里,我们会介绍子表达式,向前向后查找,回溯引用。到这一篇开始前除了回溯引用在一些场合不可替代以外,大部分情况下的正则表达式...

numpy中loadtxt 的用法详解

numpy中有两个函数可以用来读取文件,主要是txt文件, 下面主要来介绍这两个函数的用法 第一个是loadtxt, 其一般用法为 numpy.loadtxt(fname, dtype=...

python 正则表达式 概述及常用字符

1.元字符: . 它匹配除了换行字符外的任何字符,在 alternate 模式(re.DOTALL)下它甚至可以匹配换行 ^ 匹配行首。除非设置 MULTILINE 标志,它只是匹配字符...

使用Python实现正态分布、正态分布采样

使用Python实现正态分布、正态分布采样

多元正态分布(多元高斯分布) 直接从多元正态分布讲起。多元正态分布公式如下: 这就是多元正态分布的定义,均值好理解,就是高斯分布的概率分布值最大的位置,进行采样时也就是采样的中心点。而...