您好,登錄后才能下訂單哦!
這篇文章主要介紹了python爬蟲中怎么突破驗證碼阻攔,具有一定借鑒價值,需要的朋友可以參考下。希望大家閱讀完這篇文章后大有收獲。下面讓小編帶著大家一起了解一下。
1. 圖片驗證碼
復雜型
打碼平臺雇傭了人力,專門幫人識別驗證碼。識別完把結果傳回去。總共的過程用不了幾秒時間。這樣的打碼平臺還有記憶功能。圖片被識別為“鍋鏟”之后,那么下次這張圖片再出現的時候,系統就直接判斷它是“鍋鏟”。時間一長,圖片驗證碼服務器里的圖片就被標記完了,機器就能自動識別了。
簡單型
上面兩個不用處理直接可以用OCR識別技術(利用python第三方庫--tesserocr)來識別。
2. 短信驗證碼
用Webbrowser技術,模擬用戶打開短信的行為,最終獲取短信驗證碼。
3.計算題圖片驗證碼
把所有可能出現的漢字都人工取出來,保存為黑白圖片,把驗證碼按照字體顏色二值化,去除噪點,然后將所有圖片依次與之進行像素對比,計算出相似值,找到最像的那張圖片
4.滑動驗證碼
我們可以利用圖片的像素作為線索,確定好基本屬性值,查看位置的差值,對于差值超過基本屬性值,我們就可以確定圖片的大概位置。
5. 圖案驗證碼
對于這種每次拖動的順序不一樣,結果就不一樣,我們怎么做來識別呢?
利用機器學習所有的拖動順序,利用1萬張圖片進行訓練,完成類似人的操作,最終將其識別
利用selenium技術來模擬人的拖動順序,窮盡所有拖動方式,這樣達到是別的效果
6. 標記倒立文字驗證碼
我們不妨分析下:對于漢字而言,有中華五千年龐大的文字庫,加上文字的不同字體、文字的扭曲和噪點,難度更大了。
方法:首先點擊前兩個倒立的文字,可確定7個文字的坐標, 驗證碼中7個漢字的位置是確定的,只需要提前確認每個字所在的坐標并將其放入列表中,然后人工確定倒立文字的文字序號,將列表中序號對應的坐標即可實現成功登錄。
感謝你能夠認真閱讀完這篇文章,希望小編分享python爬蟲中怎么突破驗證碼阻攔內容對大家有幫助,同時也希望大家多多支持億速云,關注億速云行業資訊頻道,遇到問題就找億速云,詳細的解決方法等著你來學習!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。