亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

爬蟲Scrapy框架之css選擇器如何使用

發布時間:2021-11-30 17:11:36 來源:億速云 閱讀:653 作者:小新 欄目:編程語言

這篇文章將為大家詳細講解有關爬蟲Scrapy框架之css選擇器如何使用,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

css選擇器介紹

  • 在css中選擇器是一種模式,用于選擇需要添加樣式的元素,css對html頁面中的元素實現一對一,一對多或者多對一的控制,都需要用到css選擇器,html頁面中的元素就是通過css選擇器進行控制的;

css選擇器的基本語法

  • 類選擇器:元素的class屬性,比如class="box"表示選取class為box的元素;

  • ID選擇器:元素的id屬性,比如id="box"表示選取id為box的元素;

  • 元素選擇器:直接選擇文檔元素,比如p表示選擇所有的p元素,div表示選擇所有的div元素;

  • 屬性選擇器:選擇具有某個屬性的元素,如*[title]表示選擇所有包含title屬性的元素、a[href]表示選擇所有帶有href屬性的a元素等;

  • 后代選擇器:選擇包含元素后代的元素,如li a表示選取所有li 下所有a元素;

  • 子元素選擇器:選擇作為某元素子元素的元素,如h2 > strong表示選擇父元素為h2 的所有 strong 元素;

  • 相鄰兄弟選擇器:選擇緊接在另一元素后的元素,且二者有相同父元素,如h2 + p表示選擇緊接在 h2 元素之后的所有p元素;

scrapy 中的css使用方法

以a元素來舉例說明

  • response.css('a'):返回的是selector對象;

  • response.css('a').extract():返回的是a標簽對象;

  • response.css('a::text').extract_first():返回的是第一個a標簽中文本的值;

  • response.css('a::attr(href)').extract_first():返回的是第一個a標簽中href屬性的值;

  • response.css('a[href*=image]::attr(href)').extract():返回所有a標簽中href屬性包含image的值;

  • response.css('a[href*=image] img::attr(src)').extract():返回所有a標簽下image標簽的src屬性;

表達式書寫方式表達式意義
#box選取id為box的元素
.box選取class為box的元素
p選擇所有 p 元素
div img選取div下的img元素
div,img選擇所有 div 元素和所有 img 元素
div#box選取 id為box的div元素
div>p選擇父元素為 div 元素的所有 p 元素
[title~=flower]選擇 title 屬性包含單詞 “flower” 的所有元素
a[href=”/page/2”]選取href屬性為/page/2的a元素
a[href^=”/page”]選取href屬性以/page開頭的a元素
a[href$=”.png”]選取href屬性以png結尾的a元素
  • 上一節中我們使用XPATH選擇器獲取了csdn中今日推薦的標題,現在我們用CSS選擇器來試著獲取一下

# -*- coding: utf-8 -*-
import scrapy
class CsdnSpider(scrapy.Spider):
    name = 'csdn'
    allowed_domains = ['www.csdn.net']
    start_urls = ['http://www.csdn.net/']
    def parse(self, response):
       result = response.css('.company_list .company_name a::text').extract()
       for i in result:
           print(i)
  • 我們來看一下代碼的運行結果,看是否能獲取到我們想要的信息;

爬蟲Scrapy框架之css選擇器如何使用

獲取元素的跳轉鏈接和圖片地址

  • 首先可以使用css選擇器提取元素的跳轉鏈接和圖片的src地址,這里需要用到urllib庫中的parse.urljoin()方法,用它來拼接獲取到的元素中的路徑,使之變為絕對路徑;
    urljoin(baes,url[,allow_frafments]),其中參數base作為基地址,與第二個參數為相對路徑的url相結合,組成一個絕對URl地址,其中參數allow_fragments可根據自己的需求設置;

import scrapy
from urllib import parse
class DribbbleSpider(scrapy.Spider):
    name = 'dribbble'
    allowed_domains = ['dribbble.com']
    start_urls = ['http://dribbble.com/']
    def parse(self, response):
        a_href = response.css('.dribbble-shot .dribbble-over::attr(href)').extract_first("")
        href = parse.urljoin(response.url, a_href)
        print(a_href)
        print(href)
import scrapy
from urllib import parse
class DribbbleSpider(scrapy.Spider):
    name = 'dribbble'
    allowed_domains = ['dribbble.com']
    start_urls = ['http://dribbble.com/']
    def parse(self, response):
        image_src = response.css('img.enrique-image::attr(src)').extract_first("")
        src = parse.urljoin(response.url, image_src)
        print(image_src)
        print(src)
  • 下載且保存圖片到本地

import scrapy
from urllib import parse
import requests
class DribbbleSpider(scrapy.Spider):
    name = 'dribbble'
    allowed_domains = ['dribbble.com']
    start_urls = ['http://dribbble.com/']
    def parse(self, response):
        image_src = response.css('img.enrique-image::attr(src)').extract_first("")
        src = parse.urljoin(response.url, image_src)
        ret = requests.get(src, stream=True)
        with open('./1.png', 'wb') as f:
            for block in ret.iter_content(chunk_size=1024):
                f.write(block)

如何快速獲取頁面中的元素

  • 獲取xpath選擇器的元素:選擇標簽->鼠標右鍵->copy->Copy XPath;

爬蟲Scrapy框架之css選擇器如何使用

  • 獲取css選擇器的元素:可以使用第三方插件Chrome的開發者調試工具獲取,需要下載CSS Select插件->然后直接選擇標簽元素;

爬蟲Scrapy框架之css選擇器如何使用

關于“爬蟲Scrapy框架之css選擇器如何使用”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

龙陵县| 武夷山市| 阳新县| 唐河县| 新源县| 玉龙| 河源市| 玉环县| 保山市| 古交市| 庆城县| 苗栗县| 米林县| 长泰县| 舒兰市| 铁岭县| 绥德县| 临澧县| 灵寿县| 胶州市| 西乌珠穆沁旗| 平谷区| 紫金县| 九寨沟县| 扶沟县| 黄龙县| 南康市| 怀来县| 泗洪县| 北安市| 周至县| 扎鲁特旗| 嘉黎县| 威信县| 吉首市| 广元市| 黄石市| 阿城市| 平和县| 个旧市| 闽侯县|