Python中pdfminer如何抓取PDF中的內容

發布時間：2020-10-29 09:15:43 來源：億速云閱讀：222 作者：小新欄目：編程語言

小編給大家分享一下Python中pdfminer如何抓取PDF中的內容，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

轉換 PDF 有很多庫可以完成，如下是通過 pdfminer 的示例：

from cStringIO import StringIO

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage


def convert_pdf_2_text(path):
    
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    
    device = TextConverter(rsrcmgr, retstr, codec='utf-8', laparams=LAParams())
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    
    with open(path, 'rb') as fp:
         for page in PDFPage.get_pages(fp, set()):
             interpreter.process_page(page)
         text = retstr.getvalue()
              
               device.close()
               retstr.close()
                 
               return text

需要指出的是，pdfminer 不但可以將 PDF 轉換為 text 文本，還可以轉換為 HTML 等帶有標簽的文本。上面只是最簡單的示例，如果每頁有很獨特的標志，你還可以按頁單獨處理。

以上是Python中pdfminer如何抓取PDF中的內容的所有內容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內容對大家有所幫助，如果還想學習更多知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

Python中pdfminer如何抓取PDF中的內容

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

Python中pdfminer如何抓取PDF中的內容

猜你喜歡

最新資訊

相關推薦

相關標簽