python获取pdf文字

编程随想

AI时代，找源码已成为过去式，纪念我过去的十年 by Python自学0(回) 304天前

还有人吗 by 高嘉易2(回) 322天前

会python真的可以为所欲为 by Python自学0(回) 801天前

这里还有人吗 by mikeKil2(回) 987天前

这里还有人吗 by mikeKil0(回) 987天前

每天面对着电脑屏幕，敲打键盘。我所面对的并不只是代码，而是一种生活方式。 by js特效0(回) 1211天前

[python]代码库

#基于pdfminer库 #pip install pdfminer3k from pdfminer.pdfparser import PDFParser, PDFDocument from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAParams, LTTextBoxHorizontal from pdfminer.pdfinterp import PDFTextExtractionNotAllowed, PDFResourceManager, PDFPageInterpreter def pdfParse(path): """ pdf文字提取 :param path:文件路径 :return: 每页结果列表 """ fp = open(path, 'rb') # 以二进制读模式打开 # 用文件对象来创建一个pdf文档分析器 praser = PDFParser(fp) # 创建一个PDF文档 doc = PDFDocument() # 连接分析器与文档对象 praser.set_document(doc) doc.set_parser(praser) # 提供初始化密码 # 如果没有密码就创建一个空的字符串 doc.initialize() # 检测文档是否提供txt转换，不提供就忽略 if not doc.is_extractable: raise PDFTextExtractionNotAllowed else: # 创建PDf 资源管理器来管理共享资源 rsrcmgr = PDFResourceManager() # 创建一个PDF设备对象 laparams = LAParams() device = PDFPageAggregator(rsrcmgr, laparams=laparams) # 创建一个PDF解释器对象 interpreter = PDFPageInterpreter(rsrcmgr, device) #每页文字内容 results = [] # 循环遍历列表，每次处理一个page的内容 for page in doc.get_pages(): # doc.get_pages() 获取page列表 interpreter.process_page(page) # 接受该页面的LTPage对象 layout = device.get_result() # 这里layout是一个LTPage对象里面存放着这个page解析出的各种对象一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等想要获取文本就获得对象的text属性， for x in layout: if isinstance(x, LTTextBoxHorizontal): results.append(x.get_text()) return results

用户注册

用户登录

发表随想

该用户最新代码

编程随想

[python]代码库

网友评论 (发表评论)

发表评论：

评论须知：

扫码下载

输入口令后可复制整站源码