Python3網絡爬蟲入門知識點有哪些

發布時間：2022-01-20 10:03:44 來源：億速云閱讀：158 作者：iii 欄目：web開發

本篇內容介紹了“Python3網絡爬蟲入門知識點有哪些”的有關知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠學有所成！

　　網絡爬蟲簡介

　　網絡爬蟲，也叫網絡蜘蛛（Web?Spider）。它根據網頁地址（URL）爬取網頁內容，而網頁地址（URL）就是我們在瀏覽器中輸入的網站鏈接。比如：它就是一個URL。

　　1、審查元素

　　在瀏覽器的地址欄輸入URL地址，在網頁處右鍵單擊，找到檢查。（不同瀏覽器的叫法不同，Chrome瀏覽器叫做檢查，Firefox瀏覽器叫做查看元素，但是功能都是相同的）

　　我們可以看到，右側出現了一大推代碼，這些代碼就叫做HTML。什么是HTML？舉個容易理解的例子：我們的基因決定了我們的原始容貌，服務器返回的HTML決定了網站的原始容貌。

　　為啥說是原始容貌呢？因為人可以整容啊！扎心了，有木有？那網站也可以"整容"嗎？可以！請看下圖：

　　我能有這么多錢嗎？顯然不可能。我是怎么給網站"整容"的呢？就是通過修改服務器返回的HTML信息。我們每個人都是"整容大師"，可以修改頁面信息。我們在頁面的哪個位置點擊審查元素，瀏覽器就會為我們定位到相應的HTML位置，進而就可以在本地更改HTML信息。

　　再舉個小例子：我們都知道，使用瀏覽器"記住密碼"的功能，密碼會變成一堆小黑點，是不可見的。可以讓密碼顯示出來嗎？可以，只需給頁面"動個小手術"！以淘寶為例，在輸入密碼框處右鍵，點擊檢查。

　　可以看到，瀏覽器為我們自動定位到了相應的HTML位置。將下圖中的password屬性值改為text屬性值（直接在右側代碼處修改）：

　　我們讓瀏覽器記住的密碼就這樣顯現出來了：

　　說這么多，什么意思呢？瀏覽器就是作為客戶端從服務器端獲取信息，然后將信息解析，并展示給我們的。我們可以在本地修改HTML信息，為網頁"整容"，但是我們修改的信息不會回傳到服務器，服務器存儲的HTML信息不會改變。刷新一下界面，頁面還會回到原本的樣子。這就跟人整容一樣，我們能改變一些表面的東西，但是不能改變我們的基因。

　　2、簡單實例

　　網絡爬蟲的第一步就是根據URL，獲取網頁的HTML信息。在Python3中，可以使用urllib.request和requests進行網頁爬取。

　　urllib庫是python內置的，無需我們額外安裝，只要安裝了Python就可以使用這個庫。requests庫是第三方庫，需要我們自己安裝。

　　requests庫強大好用，所以本文使用requests庫獲取網頁的HTML信息。requests庫的github地址：

　　（1）requests安裝

　　？

　　在cmd中，使用如下指令安裝requests：

　　pip install requests

　　或者：

　　easy_install requests

　　（2）簡單實例

　　requests庫的基礎方法如下：

　　首先，讓我們看下requests.get（）方法，它用于向服務器發起GET請求，不了解GET請求沒有關系。我們可以這樣理解：get的中文意思是得到、抓住，那這個requests.get（）方法就是從服務器得到、抓住數據，也就是獲取數據。讓我們看一個例子（以為例）來加深理解：

　　# -*- coding:UTF-8 -*-

　　import?requests

　　if?__name__ == '__main__':

　　？target = ''

　　？req = requests.get（url=target）

　　？print（req.text）

　　requests.get（）方法必須設置的一個參數就是url，因為我們得告訴GET請求，我們的目標是誰，我們要獲取誰的信息。

“Python3網絡爬蟲入門知識點有哪些”的內容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站，小編將為大家輸出更多高質量的實用文章！

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

Python3網絡爬蟲入門知識點有哪些

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

Python3網絡爬蟲入門知識點有哪些

猜你喜歡

最新資訊

相關推薦

相關標簽