python開發中怎么使用pytesseract實現文字識別

發布時間：2021-11-29 14:17:42 來源：億速云閱讀：230 作者：iii 欄目：大數據

本篇內容介紹了“python開發中怎么使用pytesseract實現文字識別”的有關知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠學有所成！

pytesseract是一款開源的圖片文字識別庫，能識別中文、英文等不少類型的語言，使用之前需要安裝tesseract-ocr引擎，此引擎在windows、linux、macos上都能進行安裝，(OCR,Optical Character Recognition，光學字符識別)，安裝完成后，對應安裝pytesseract庫，就能做簡單的文字識別了，自帶的文字類庫，識別有時不準確，但是可以自己訓練識別庫。

“Tesseract的OCR引擎最先由HP實驗室于1985年開始研發，至1995年時已經成為OCR業內最準確的三款識別引擎之一。然而，HP不久便決定放棄OCR業務，Tesseract也從此塵封。

數年以后，HP意識到，與其將Tesseract束之高閣，不如貢獻給開源軟件業，讓其重煥新生－－2005年，Tesseract由美國內華達州信息技術研究所獲得，并求諸于Google對Tesseract進行改進、消除Bug、優化工作。”

下邊列舉一下，如何在Centos7系統的環境下，搭建一個python的tesseract-ocr環境，并使用python進行簡單的圖片識別。

安裝Tesseract-ocr，在github上有安裝的網址，https://github.com/tesseract-ocr/tesseract/wiki，在Centos7上，使用最簡單的yum進行安裝，這種方式，需要保持互聯網的連接，但是也不用編譯源代碼進行安裝了。

//更新配置，添加tesseract的地址
yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
//更新yum
yum update
//安裝tesseract
yum install tesseract 
//安裝簡體中文語言包
yum install tesseract-langpack-chi_sim

安裝完引擎后，安裝python的開發包，使用pip進行安裝，安裝命令是：

pip install pytesseract

簡單的圖片識別代碼：

import pytesseract
from PIL import Image
#打開圖片
image = Image.open('圖片路徑')
#將圖片中的文字轉換字符串
code = pytesseract.image_to_string(image, lang='chi_sim')
#輸出字符串
print(code)

“python開發中怎么使用pytesseract實現文字識別”的內容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站，小編將為大家輸出更多高質量的實用文章！

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

python開發中怎么使用pytesseract實現文字識別

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

python開發中怎么使用pytesseract實現文字識別

猜你喜歡

最新資訊

相關推薦

相關標簽