Python的常見面試題有哪些

發布時間：2021-11-20 15:22:45 來源：億速云閱讀：132 作者：iii 欄目：編程語言

本篇內容主要講解“Python的常見面試題有哪些”，感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷，實用性強。下面就讓小編來帶大家學習“Python的常見面試題有哪些”吧!

一. 遇到過得反爬蟲策略以及解決方法?

1.通過headers反爬蟲

2.基于用戶行為的發爬蟲：(同一IP短時間內訪問的頻率)

3.動態網頁反爬蟲(通過ajax請求數據，或者通過JavaScript生成)

4.對部分數據進行加密處理的(數據是亂碼)

解決方法：

對于基本網頁的抓取可以自定義headers,添加headers的數據

使用多個代理ip進行抓取或者設置抓取的頻率降低一些，

動態網頁的可以使用selenium + phantomjs 進行抓取

對部分數據進行加密的，可以使用selenium進行截圖，使用python自帶的pytesseract庫進行識別，但是比較慢最直接的方法是找到加密的方法進行逆向推理。

二. urllib 和 urllib2 的區別？

urllib 和urllib2都是接受URL請求的相關模塊，但是urllib2可以接受一個Request類的實例來設置URL請求的headers，urllib僅可以接受URL。urllib不可以偽裝你的User-Agent字符串。
urllib提供urlencode()方法用來GET查詢字符串的產生，而urllib2沒有。這是為何urllib常和urllib2一起使用的原因。

三. 列舉網絡爬蟲所用到的網絡數據包，解析包？

四. 簡述一下爬蟲的步驟？

五. 遇到反爬機制怎么處理？

反爬機制:

headers方向

判斷User-Agent、判斷Referer、判斷Cookie。

將瀏覽器的headers信息全部添加進去

注意：Accept-Encoding；gzip,deflate需要注釋掉

六. 常見的HTTP方法有哪些？

七. 說一說redis-scrapy中redis的作用?

它是將scrapy框架中Scheduler替換為redis數據庫，實現隊列管理共享。

優點：

八. 遇到的反爬蟲策略以及解決方法?

九. 如果讓你來防范網站爬蟲，你應該怎么來提高爬取的難度？

十. scrapy分為幾個組成部分？分別有什么作用？

分為5個部分；Spiders(爬蟲類)，Scrapy Engine(引擎),Scheduler(調度器),Downloader(下載器),Item Pipeline(處理管道)。

到此，相信大家對“Python的常見面試題有哪些”有了更深的了解，不妨來實際操作一番吧！這里是億速云網站，更多相關內容可以進入相關頻道進行查詢，關注我們，繼續學習！

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看