怎么用python爬取pdf指定內容

要用Python爬取PDF指定內容，可以使用第三方庫PyPDF2。首先，確保已經安裝了該庫，可以使用pip命令進行安裝：

pip install PyPDF2

然后，可以使用下面的代碼來實現爬取指定內容的功能：

import PyPDF2

def search_pdf(file_path, keyword):
    with open(file_path, 'rb') as file:
        reader = PyPDF2.PdfFileReader(file)
        num_pages = reader.numPages

        for page_num in range(num_pages):
            page = reader.getPage(page_num)
            text = page.extract_text()

            if keyword in text:
                print(f"Page {page_num + 1}: {text}")

# 示例使用
search_pdf('example.pdf', '指定內容')

上述代碼定義了一個search_pdf函數，接受兩個參數：file_path代表PDF文件的路徑，keyword代表要搜索的關鍵詞。函數會打開PDF文件，逐頁讀取并提取文本內容，然后判斷關鍵詞是否在文本中，如果存在則打印該頁的內容。

你需要將'example.pdf'替換為你要爬取的PDF文件的路徑，'指定內容'替換為你要搜索的具體內容。運行代碼后，會輸出包含指定內容的頁碼和內容。

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

最新問答

相關標簽