亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python中pdfminer如何抓取PDF中的內容

發布時間:2020-10-29 09:15:43 來源:億速云 閱讀:222 作者:小新 欄目:編程語言

小編給大家分享一下Python中pdfminer如何抓取PDF中的內容,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

轉換 PDF 有很多庫可以完成,如下是通過 pdfminer 的示例:

from cStringIO import StringIO

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage


def convert_pdf_2_text(path):
    
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    
    device = TextConverter(rsrcmgr, retstr, codec='utf-8', laparams=LAParams())
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    
    with open(path, 'rb') as fp:
         for page in PDFPage.get_pages(fp, set()):
             interpreter.process_page(page)
         text = retstr.getvalue()
              
               device.close()
               retstr.close()
                 
               return text

需要指出的是,pdfminer 不但可以將 PDF 轉換為 text 文本,還可以轉換為 HTML 等帶有標簽的文本。上面只是最簡單的示例,如果每頁有很獨特的標志,你還可以按頁單獨處理。

以上是Python中pdfminer如何抓取PDF中的內容的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

泰兴市| 巴林左旗| 濉溪县| 乳山市| 通榆县| 华亭县| 蒙山县| 惠东县| 澄迈县| 延安市| 荆门市| 平度市| 东乌珠穆沁旗| 郁南县| 高唐县| 太仆寺旗| 小金县| 北碚区| 岢岚县| 井研县| 屯留县| 长寿区| 达孜县| 天长市| 宜城市| 黎平县| 石景山区| 浮梁县| 青神县| 衡南县| 富顺县| 荣昌县| 雷州市| 莱阳市| 桐乡市| 嘉兴市| 临猗县| 泾川县| 泰安市| 新乐市| 祥云县|