要提取圖片中的文字,可以使用Python的第三方庫tesseract-ocr。Tesseract是一個開源的OCR引擎,可以識別多種語言的文字。
首先,安裝tesseract-ocr庫和pytesseract庫:
pip install tesseract-ocr
pip install pytesseract
然后,使用以下代碼提取圖片中的文字:
import pytesseract
from PIL import Image
# 打開圖片
image = Image.open('image.jpg')
# 使用tesseract識別圖片中的文字
text = pytesseract.image_to_string(image)
# 打印識別結果
print(text)
以上代碼將會打開名為image.jpg的圖片,使用tesseract-ocr識別圖片中的文字,并將識別結果打印出來。
請注意,要使代碼正常運行,需要確保tesseract-ocr已經正確安裝,并且指定的圖片文件存在,并且包含清晰可見的文字。有時候,對于復雜的圖片或低質量的圖片,識別結果可能不準確。