Ubuntu下使用python读取doc和docx文档的内容方法

yipeiwu_com5年前Python基础

读取docx文档

使用的包是python-docx

1. 安装python-docx包

sudo pip install python-docx 

2. 使用python-docx包读取数据

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText) 

python-docx这个包是不能处理doc文档的,要读取doc文档内容的话需要使用antiword这个工具。

读取doc文档

1. 到网站下载antiword。

2. 下载完毕之后解压,在解压得到的文件夹中依次运行make和make install命令。

3. 使用antiword读取doc文档内容

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output) 

以上这篇Ubuntu下使用python读取doc和docx文档的内容方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

Django获取应用下的所有models的例子

Django获取应用下的所有models from django.apps import apps apps.get_models() # 获取所有的models,包含Djang...

对PyTorch torch.stack的实例讲解

不是concat的意思 import torch a = torch.ones([1,2]) b = torch.ones([1,2]) torch.stack([a,b],1) (...

Python 内置函数globals()和locals()对比详解

这篇文章主要介绍了Python globals()和locals()对比详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 Pytho...

python+opencv打开摄像头,保存视频、拍照功能的实现方法

以下代码是保存视频 # coding:utf-8 import cv2 import sys reload(sys) sys.setdefaultencoding('utf8') c...

使用Pyhton集合set()实现成果查漏的例子

问题:不同版本提交的城市文件夹数量固定,怎样确定本版本成果中缺少了哪些城市? 背景:已有参照文件作为标准,利用取差集的方法 #-*- coding: utf-8 -*- #以上版本成...