亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么實現python爬蟲

發布時間:2021-10-28 10:21:17 來源:億速云 閱讀:177 作者:小新 欄目:編程語言

這篇文章主要為大家展示了“怎么實現python爬蟲”,內容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領大家一起研究并學習一下“怎么實現python爬蟲”這篇文章吧。

  一:爬蟲準備

  1.爬蟲首先需要做的事情就是要確定好你想要爬取數據的對象,這里我將以百度主頁logo圖片的地址為例進行講解。

  2.首先,是打開百度主頁界面,然后把鼠標移動到主頁界面的百度logo圖標上面,點擊鼠標右鍵,然后點擊審查元素,即可打開開發者界面。

  3.然后再下面的界面里面,可以看到該logo圖標在HTML里面的排版模式,<img hidefocus="true" src="//百度/img/bd_logo1.png" width="270" height="129">,這里百度我用字替換了。

  二:開始爬蟲

  1.爬蟲主要分為兩個部分,第一個是網頁界面的獲取,第二個是網頁界面的解析;爬蟲的原理是利用代碼模擬瀏覽器訪問網站,與瀏覽器不同的是,爬蟲獲取到的是網頁的源代碼,沒有了瀏覽器的翻譯效果。

  2.首先,我們進行頁面獲取,python爬蟲的話很多模塊包提供給開發者直接抓取網頁,urlliburllib2requests(urllib3)等等,這里我們使用urllib2進行網站頁面的獲取;首先導入urllib2模塊包(該包是默認安裝的)import urllib2

  3.導入模塊包之后,然后調用urllib2中的urlopen方法鏈接網站,代碼如下repr = urllib2.urlopen("XXXXXX"),XXXXXX代表的是網站名稱。

  4.得到網站的響應之后,然后就是將頁面的源代碼讀取出來,調用read方法,html = repr.read()

  5.獲取到頁面的源代碼之后,然后接下來的工作就是將自己想要的數據從html界面源代碼中解析出來,解析界面的模塊包有很多,原始的re,好用的BeautifulSoup,以及高大上的lxml等等,這里我就簡單的用re介紹介紹,首先導入re模塊包:import re

  6.然后進行利用re進行搜索,這里我有使用正則表達式,看不懂的同學需去補充點正則表達式方面的知識。

  7.然后,我這里就實現了一個簡單的爬蟲流程,打印url,可以看見剛好就是之前我們看見的百度主頁logo的地址。

  8.源代碼:

  import urllib2

  repr = urllib2.urlopen("URL")

  html = repr.read()

  import re

  省略一行代碼

  print url

以上是“怎么實現python爬蟲”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

九龙县| 红原县| 科技| 梅州市| 彰化县| 南昌县| 逊克县| 牟定县| 绩溪县| 万山特区| 徐州市| 资中县| 阿拉尔市| 怀远县| 临海市| 东山县| 宣城市| 乌审旗| 托克托县| 孙吴县| 梨树县| 兴国县| 沛县| 永宁县| 济源市| 蒙城县| 多伦县| 沙雅县| 大新县| 和林格尔县| 巴林右旗| 平潭县| 九龙城区| 渝北区| 宣武区| 梁河县| 文水县| 威远县| 红河县| 阿拉善左旗| 肇庆市|