Python读取网页上的pdf文件，输出字符串

Python读取网页上的pdf文件，输出字符串，使用python识别网站上的pdf并读取，保存在word文件，PDFMiner是一种从PDF文档中提取信息的工具。与其他PDF相关工具不同，它完全专注于获取和分析文本数据。PDFMiner允许人们获取页面中文本的确切位置，以及字体或线条等其他信息。它包括一个PDF转换器，可以将PDF文件转换为其他文本格式（如HTML）。它具有可扩展的PDF解析器，可用于除文本分析之外的其他目的。

工具/原料

python PDFMiner

方法/步骤

首先安装pdf文件python读取包，PDFMinerPDFMiner是一种从PDF文档中提取信息的工具。与其他PDF相关工具不同，它完全专注于获取和分析文本数据。如下所示 pip install PDFMiner

开始使用PDFMiner来读取一个远程的pdf文件，除了使用PDFMiner，还需要安装urllib 或者urllib2，有时候这些都安装了，在导入process_pdf的时候会找不到，这个时候就需要重新安装 pdfminer可以到如下地址寻找 pdfminer的历史版本，例如我这里安装pdfminer 20131022pip install pdfminer==20131113安装完成后如下所示 process_pdf可以导入正常使用了，好的我们开始下一步

读取一个远程的pdf文件，输出字符串# -*- coding: UTF-8 -*from urllib import urlopenfrom pdfminer.pdfinterp import PDFResourceManager, process_pdffrom pdfminer.converter import TextConverterfrom pdfminer.layout import LAParamsfrom io import StringIOfrom io import opendef readPDF(pdfFile): rsrcmgr = PDFResourceManager() retstr = StringIO() laparams = LAParams() device = TextConverter(rsrcmgr, retstr, laparams=laparams) process_pdf(rsrcmgr, device, pdfFile) device.close() content = retstr.getvalue() retstr.close() return contentpdfFile = urlopen('http://pythonscraping.com/pages/warandpeace/chapter1.pdf')#远程outputString = readPDF(pdfFile)print(outputString)pdfFile.close()

读取一个本地pdf文件，输出字符串# -*- coding: UTF-8 -*from urllib import urlopenfrom pdfminer.pdfinterp import PDFResourceManager, process_pdffrom pdfminer.converter import TextConverterfrom pdfminer.layout import LAParamsfrom io import StringIOfrom io import opendef readPDF(pdfFile): rsrcmgr = PDFResourceManager() retstr = StringIO() laparams = LAParams() device = TextConverter(rsrcmgr, retstr, laparams=laparams) process_pdf(rsrcmgr, device, pdfFile) device.close() content = retstr.getvalue() retstr.close() return contentpdfFile = open(u'/home/mypdf.pdf',”rd”) #本地print(pdfFile)outputString = readPDF(pdfFile)print(outputString)pdfFile.close()

注意事项

如果windows无法运行，建议在linux下使用测试

上一篇：python读取文件出现编码错误如何解决？

下一篇：Python在读取文件数据时报错处理

欧尼酱

Python读取网页上的pdf文件，输出字符串

python如何读取csv文件

python怎么读取和写入csv文件

Python | 怎么读写csv文件

python中如何用list获取csv文件中的数据

python中如何对csv文件中数据进行处理

python中如何把数据追加到csv文件之中

python如何将列表存储为csv文件

Python：如何载入CSV文件

python怎么选取csv某几列

python中如何对csv数据的格式进行处理

python中如何统计csv行数

python中如何把数据写入csv文件之中

python使用openpyx 将xlsx导出为csv

Python Opencv如何读取 显示 存储图像

Python 中matplotlib 和OpenCV 读取影像的区别

python3.4写中文字符到csv出现乱码的问题

Python处理CSV文件乱码问题

利用Python对csv文件中的数据进行排序

Python | 怎么合并csv文件

python-如何使用pandas包读写数据文件

怎么把cad转成word

cad怎么拖拽界面

cad转换器在线版操作pdf文件转换成cad图纸

CAD中如何进行数据提取？

AutoCAD，怎么把PDF转化为CAD图纸

CAD怎么打开DWF

CAD中如何标注尺寸？

CAD中怎么填充菱形并制定大小及起点

CAD如何量尺寸

如何在三维CAD中望3D中快速导入导出JT格式

中望3D复杂模具多实体加工(三维CAD教程)

怎么在CAD中导出PDF文件

CAD中的全局设置

CAD版本转换器怎么使用？怎么转CAD为

CAD图纸加密软件，实力大测评

CAD制图教程：数据提取及处理技巧

中望CAD如何画四分之一圆、1/4圆

如何将中望CAD2014数据保存为aotocad2004版本

如何将中望CAD2017数据保存为aotocad版本

中望CAD怎么把背景换成白色

Python Opencv如何读取显示存储图像