python 高效去重复 支持GB级别大文件的示例代码

yipeiwu_com6年前Python基础

如下所示:

#coding=utf-8
 
import sys, re, os
 
def getDictList(dict):
  regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+'''
  with open(dict) as f:
    data = f.read()
    return re.findall(regx, data)
 
def rmdp(dictList):
  return list(set(dictList))
 
def fileSave(dictRmdp, out):
  with open(out, 'a') as f:
    for line in dictRmdp:
      f.write(line + '\n')
 
def main():
  try:
    dict = sys.argv[1].strip()
    out = sys.argv[2].strip()
  except Exception, e:
    print 'error:', e
    me = os.path.basename(__file__)
    print 'usage: %s <input> <output>' %me
    print 'example: %s dict.txt dict_rmdp.txt' %me
    exit()
 
  dictList = getDictList(dict)
  dictRmdp = rmdp(dictList)
  fileSave(dictRmdp, out)
   
if __name__ == '__main__':
  main()

以上这篇python 高效去重复 支持GB级别大文件的示例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

Java与Python两大幸存者谁更胜一筹呢

Java与Python两大幸存者谁更胜一筹呢

在学习编程语言上,相信很多人都纠结过学哪种语言更好?其实,在选择是更多的时候我们更多是需要看自己更适合。本篇文章,千锋武汉小编与大家共同讨论的编程语言,或许更多的是限于python和Ja...

Python3 log10()函数简单用法

描述 log10() 方法返回以10为基数的x对数,x>0。 语法 以下是 log10() 方法的语法: import math math.log10( x ) 注意...

Python求平面内点到直线距离的实现

Python求平面内点到直线距离的实现

近期遇到个问题,需要计算平面内点到直线的距离,发现数学知识都还给老师了,度娘后找到计算方法,特此记录。 点到直线的计算公式: 通过公式推导,得到信息: A:直线斜率 B:固定值-1 C...

从运行效率与开发效率比较Python和C++

之前有人一直在说python怎么怎么好用,也有人说C++太难了,下面我做了一些笔记: 1、运行效率:C++ >> Python Python代码和C++最终都会变成CPU指令...

Django视图和URL配置详解

Django视图和URL配置详解

本文研究的主要是Django视图和URL配置,具体介绍如下。 一、视图 1.在mysite文件夹下,创建views.py文件(文件名没有特别的要求); from django.ht...