python 高效去重复 支持GB级别大文件的示例代码

yipeiwu_com6年前Python基础

如下所示:

#coding=utf-8
 
import sys, re, os
 
def getDictList(dict):
  regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+'''
  with open(dict) as f:
    data = f.read()
    return re.findall(regx, data)
 
def rmdp(dictList):
  return list(set(dictList))
 
def fileSave(dictRmdp, out):
  with open(out, 'a') as f:
    for line in dictRmdp:
      f.write(line + '\n')
 
def main():
  try:
    dict = sys.argv[1].strip()
    out = sys.argv[2].strip()
  except Exception, e:
    print 'error:', e
    me = os.path.basename(__file__)
    print 'usage: %s <input> <output>' %me
    print 'example: %s dict.txt dict_rmdp.txt' %me
    exit()
 
  dictList = getDictList(dict)
  dictRmdp = rmdp(dictList)
  fileSave(dictRmdp, out)
   
if __name__ == '__main__':
  main()

以上这篇python 高效去重复 支持GB级别大文件的示例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

python使用requests.session模拟登录

python使用requests.session模拟登录

最近开发一套接口,写个Python脚本,使用requests.session模拟一下登录. 因为每次需要获取用户信息,登录需要带着session信息,所以所有请求需要带着session。...

pygame编写音乐播放器的实现代码示例

pygame编写音乐播放器的实现代码示例

1、准备工作 ide:pycharm python:3.7 三方包:pygame、pyinstaller、mutagen 几首mp3格式的歌 2、开始 2.1 设计说明 1、包含...

python如何将图片转换为字符图片

python如何将图片转换为字符图片

简介 一个简单的python程序,将图片转换为字符图片。 (为了简便,很多参数写死了,自己看着改吧。 (←∀←)) 正文 原图(侵删) 结果图 源码 [更多细节]——&...

图文详解WinPE下安装Python

图文详解WinPE下安装Python

本文介绍了WinPE下安装Python的具体步骤,供大家参考,具体内容如下 一、下载Python Windows安装包,最新版本为3.3.0 下载地址:http://www.python...

Python字典底层实现原理详解

在Python中,字典是通过散列表或说哈希表实现的。字典也被称为关联数组,还称为哈希数组等。也就是说,字典也是一个数组,但数组的索引是键经过哈希函数处理后得到的散列值。哈希函数的目的是使...