亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python中怎么實現一個網頁采集器

發布時間:2021-08-10 11:42:25 來源:億速云 閱讀:255 作者:Leah 欄目:大數據

本篇文章為大家展示了Python中怎么實現一個網頁采集器,內容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細介紹希望你能有所收獲。

requests模塊

python中封裝好的一個基于網絡請求的模塊。用來模擬瀏覽器發請求。安裝:pip install requests

requests模塊的編碼流程

  1. 指定url

  2. 發起請求

  3. 獲取相應數據

  4. 持久化儲存

# 爬取搜狗首頁的頁面源碼數據

import requests

# 1. 指定url
url = "https://www.sogou.com"
# 2.發送請求 get
response = requests.get(url=url)  # get返回值是Response對象
# 獲取響應數據,響應數據在Response對象里
page_text = response.text   # text返回字符串形式的響應數據
# 4.持久化儲存
with open("sogou.html","w",encoding='utf-8') as fp:
    fp.write(page_text)

項目:實現一個簡易的網頁采集器

要求:程序基于搜狗錄入任意的關鍵字然后獲取關鍵字對應的相關的整個頁面。

# 1.指定url,需要讓url攜帶的參數動態化

url = "https://www.sogou.com/web"
# 實現參數動態化,不推薦參數的拼接,參數如果太多就相當麻煩。
# requests模塊實現了更為簡便的方法
ky = input("enter a key")
params = {
    'query':ky
}
# 將需要的請求參數對應的字典作用到get方法的params參數中,params參數接受一個字典
response = requests.get(url=url,params=params)
page_text = response.text

with open(f"{ky}.html","w",encoding='utf-8') as fp:
    fp.write(page_text)

上述代碼執行后:

  1. 出現了亂碼

  2. 數據量級不對

# 解決亂碼

url = "https://www.sogou.com/web"

ky = input("enter a key")
params = {
    'query':ky
}
response = requests.get(url=url,params=params)
# print(response.encoding) 會打印原來response的編碼格式
response.encoding = 'utf-8'  # 修改響應數據的編碼格式
page_text = response.text
with open(f"{ky}.html","w",encoding='utf-8') as fp:
    fp.write(page_text)

上述代碼執行后:

收到了錯誤頁面(搜狗的反爬機制)

UA檢測

  • 絕大多數網站都有UA檢查反爬機制

  • 門戶網站通過檢測請求載體的身份標識判定該請求是否為爬蟲發出的請求

反反爬策略:UA偽裝 請求頭增加User-Agent

打開瀏覽器請求搜狗頁面,右鍵點擊檢查進入Network,點擊Headers找到瀏覽器的User-Agent
注意:任意瀏覽器的身份標識都可以。

# 反反爬策略:請求頭增加User-Agent
url = "https://www.sogou.com/web"

ky = input("enter a key")
params = {
    'query':ky
}
# 請求頭中增加User-Agent ,注意請求頭的數據格式是鍵值對,且都是字符串。
headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36"
}
response = requests.get(url=url,params=params,headers=headers)
response.encoding = 'utf-8'  
page_text = response.text
with open(f"{ky}.html","w",encoding='utf-8') as fp:
    fp.write(page_text)

上述內容就是Python中怎么實現一個網頁采集器,你們學到知識或技能了嗎?如果還想學到更多技能或者豐富自己的知識儲備,歡迎關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

驻马店市| 榆林市| 宁强县| 金湖县| 岱山县| 门头沟区| 榆树市| 马龙县| 常德市| 苏尼特右旗| 松桃| 崇左市| 襄垣县| 内江市| 石首市| 南涧| 商丘市| 榆中县| 巴青县| 桐柏县| 油尖旺区| 闽清县| 崇义县| 陇南市| 陇西县| 墨竹工卡县| 秦皇岛市| 泌阳县| 桓台县| 新乡县| 桦川县| 长兴县| 杭锦旗| 马公市| 富源县| 武夷山市| 清流县| 宁夏| 永清县| 济源市| 高尔夫|