亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python的常見面試題有哪些

發布時間:2021-11-20 15:22:45 來源:億速云 閱讀:132 作者:iii 欄目:編程語言

本篇內容主要講解“Python的常見面試題有哪些”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“Python的常見面試題有哪些”吧!

一. 遇到過得反爬蟲策略以及解決方法?

1.通過headers反爬蟲

2.基于用戶行為的發爬蟲:(同一IP短時間內訪問的頻率)

3.動態網頁反爬蟲(通過ajax請求數據,或者通過JavaScript生成)

4.對部分數據進行加密處理的(數據是亂碼)

解決方法:

對于基本網頁的抓取可以自定義headers,添加headers的數據

使用多個代理ip進行抓取或者設置抓取的頻率降低一些,

動態網頁的可以使用selenium + phantomjs 進行抓取

對部分數據進行加密的,可以使用selenium進行截圖,使用python自帶的pytesseract庫進行識別,但是比較慢最直接的方法是找到加密的方法進行逆向推理。

二. urllib 和 urllib2 的區別?

  • urllib 和urllib2都是接受URL請求的相關模塊,但是urllib2可以接受一個Request類的實例來設置URL請求的headers,urllib僅可以接受URL。urllib不可以偽裝你的User-Agent字符串。

  • urllib提供urlencode()方法用來GET查詢字符串的產生,而urllib2沒有。這是為何urllib常和urllib2一起使用的原因。

三. 列舉網絡爬蟲所用到的網絡數據包,解析包?

  • 網絡數據包 urllib、urllib2、requests

  • 解析包 re、xpath、beautiful soup、lxml

四. 簡述一下爬蟲的步驟?

  1. 確定需求;

  2. 確定資源;

  3. 通過url獲取網站的返回數據;

  4. 定位數據;

  5. 存儲數據。

五. 遇到反爬機制怎么處理?

反爬機制:

headers方向

判斷User-Agent、判斷Referer、判斷Cookie。

將瀏覽器的headers信息全部添加進去

注意:Accept-Encoding;gzip,deflate需要注釋掉

六. 常見的HTTP方法有哪些?

  • GET:請求指定的頁面信息,返回實體主體;

  • HEAD:類似于get請求,只不過返回的響應中沒有具體的內容,用于捕獲報頭;

  • POST:向指定資源提交數據進行處理請求(比如表單提交或者上傳文件),。數據被包含在請求體中。

  • PUT:從客戶端向服務端傳送數據取代指定的文檔的內容;

  • DELETE:請求刪除指定的頁面;

  • CONNNECT:HTTP1.1協議中預留給能夠將連接方式改為管道方式的代理服務器

  • OPTIONS:允許客戶端查看服務器的性能;

  • TRACE:回顯服務器的請求,主要用于測試或者診斷。

七. 說一說redis-scrapy中redis的作用?

它是將scrapy框架中Scheduler替換為redis數據庫,實現隊列管理共享。

優點:

  1. 可以充分利用多臺機器的帶寬;

  2. 可以充分利用多臺機器的IP地址。

八. 遇到的反爬蟲策略以及解決方法?

  1. 通過headers反爬蟲:自定義headers,添加網頁中的headers數據。

  2. 基于用戶行為的反爬蟲(封IP):可以使用多個代理IP爬取或者將爬取的頻率降低。

  3. 動態網頁反爬蟲(JS或者Ajax請求數據):動態網頁可以使用 selenium + phantomjs 抓取。

  4. 對部分數據加密處理(數據亂碼):找到加密方法進行逆向推理。

九. 如果讓你來防范網站爬蟲,你應該怎么來提高爬取的難度 ?

  1. 判斷headers的User-Agent;

  2. 檢測同一個IP的訪問頻率;

  3. 數據通過Ajax獲取;

  4. 爬取行為是對頁面的源文件爬取,如果要爬取靜態網頁的html代碼,可以使用jquery去模仿寫html。

十. scrapy分為幾個組成部分?分別有什么作用?

分為5個部分;Spiders(爬蟲類),Scrapy Engine(引擎),Scheduler(調度器),Downloader(下載器),Item Pipeline(處理管道)。

  • Spiders:開發者自定義的一個類,用來解析網頁并抓取指定url返回的內容。

  • Scrapy Engine:控制整個系統的數據處理流程,并進行事務處理的觸發。

  • Scheduler:接收Engine發出的requests,并將這些requests放入到處理列隊中,以便之后engine需要時再提供。

  • Download:抓取網頁信息提供給engine,進而轉發至Spiders。

  • Item Pipeline:負責處理Spiders類提取之后的數據。

  • 比如清理HTML數據、驗證爬取的數據(檢查item包含某些字段)、查重(并丟棄)、將爬取結果保存到數據庫中

到此,相信大家對“Python的常見面試題有哪些”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

始兴县| 卫辉市| 连城县| 曲水县| 巩义市| 高青县| 宁津县| 黄山市| 汤阴县| 彭州市| 武义县| 调兵山市| 肇州县| 宁津县| 乌兰察布市| 新闻| 台江县| 佛山市| 永靖县| 海南省| 商都县| 沐川县| 柏乡县| 武冈市| 涪陵区| 喀喇| 呼图壁县| 绍兴市| 兴宁市| 毕节市| 台中县| 元氏县| 娱乐| 南华县| 新津县| 汉源县| 乐山市| 长春市| 安西县| 宣威市| 北宁市|