亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python基于pdfminer庫提取pdf文字的方法

發布時間:2021-04-25 13:41:18 來源:億速云 閱讀:412 作者:小新 欄目:開發技術

這篇文章主要介紹python基于pdfminer庫提取pdf文字的方法,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!

Python的優點有哪些

1、簡單易用,與C/C++、Java、C# 等傳統語言相比,Python對代碼格式的要求沒有那么嚴格;2、Python屬于開源的,所有人都可以看到源代碼,并且可以被移植在許多平臺上使用;3、Python面向對象,能夠支持面向過程編程,也支持面向對象編程;4、Python是一種解釋性語言,Python寫的程序不需要編譯成二進制代碼,可以直接從源代碼運行程序;5、Python功能強大,擁有的模塊眾多,基本能夠實現所有的常見功能。

安裝pdfminer 庫

windows 下安裝pdfminer3k

pip install pdfminer3k

Liunx 下安裝pdfminer

pip install pdfminer

代碼

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBoxHorizontal
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed, PDFResourceManager, PDFPageInterpreter
def pdfParse(path):
"""
pdf文字提取
:param path:文件路徑
:return: 每頁結果列表
"""
fp = open(path, 'rb') # 以二進制讀模式打開
# 用文件對象來創建一個pdf文檔分析器
praser = PDFParser(fp)
# 創建一個PDF文檔
doc = PDFDocument()
# 連接分析器 與文檔對象
praser.set_document(doc)
doc.set_parser(praser)
# 提供初始化密碼
# 如果沒有密碼 就創建一個空的字符串
doc.initialize()
# 檢測文檔是否提供txt轉換,不提供就忽略
if not doc.is_extractable:
 raise PDFTextExtractionNotAllowed
else:
 # 創建PDf 資源管理器 來管理共享資源
 rsrcmgr = PDFResourceManager()
 # 創建一個PDF設備對象
 laparams = LAParams()
 device = PDFPageAggregator(rsrcmgr, laparams=laparams)
 # 創建一個PDF解釋器對象
 interpreter = PDFPageInterpreter(rsrcmgr, device)
 #每頁文字內容
 results = []
 # 循環遍歷列表,每次處理一個page的內容
 for page in doc.get_pages(): # doc.get_pages() 獲取page列表
  interpreter.process_page(page)
  # 接受該頁面的LTPage對象
  layout = device.get_result()
  # 這里layout是一個LTPage對象 里面存放著 這個page解析出的各種對象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要獲取文本就獲得對象的text屬性,
  for x in layout:
   if isinstance(x, LTTextBoxHorizontal):
    results.append(x.get_text())
 return results

該庫是根據 迭代pdf每一頁 進行文字提取, 也可以識別判斷頁碼的功能

另外還有一個pypdf2 庫也可以識別但是感覺不如這個準確

以上是“python基于pdfminer庫提取pdf文字的方法”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

松溪县| 华蓥市| 永川市| 霸州市| 高尔夫| 永靖县| 孟津县| 泽州县| 宁明县| 镇江市| 格尔木市| 沙洋县| 奉贤区| 丹寨县| 观塘区| 遂川县| 株洲市| 广汉市| 仁寿县| 曲靖市| 柳州市| 遂溪县| 廉江市| 余江县| 泰顺县| 顺昌县| 法库县| 邯郸市| 保山市| 恩平市| 安图县| 永康市| 崇明县| 梨树县| 中方县| 集贤县| 翁牛特旗| 伊宁市| 淮北市| 辽源市| 化州市|