亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python用match()函數爬數據方法詳解

發布時間:2020-09-07 03:28:20 來源:腳本之家 閱讀:155 作者:Ma_Qiao2020 欄目:開發技術

match()函數的使用。以及從文本中提取數據的方法。在學習re模塊的相關函數前應了解正則表達式的特殊字符

準備一個要爬取的文本文檔:

直接從某個網頁拷貝一份代碼,粘貼在 一個txt文件里,以供學習。

方法很簡單,比如打開百度視頻的熱門電影網頁,右鍵點擊查看源代碼,然后復制,粘貼到一個txt文件里,保存到工作目錄下。

有4000多行。

python用match()函數爬數據方法詳解

re.match(pattern, string, flags=0)

①pattern,是正則表達式。string,被檢驗的字符串。

②flags是可選參數,此標記是用來對patten的補充。例如:re.S,可以讓正則表達式中的點匹配換行符\n。(如圖片中,可以看幫助文檔,查看有哪些標記)

③ match()函數由左向右檢驗string,若匹配到正則表達式,返回一個匹配對象,否則就返回None.

④re.match() 匹配字符串的開始位置,而不匹配每行開始。

----所以才將網頁的每行放入列表,以供match函數對每行操作。

python用match()函數爬數據方法詳解

比如要在文檔中,提取電影的網址,和電影名。

①復制那行文本作為表達式,

②將要提取的網址和和電影名替換為(.*),這只是暫時的,可以在接下來的代碼中調整。

python用match()函數爬數據方法詳解

讀取文本:

①用with open()語句讀取;

②用readlines,一次性讀完,返回一個列表,元素是文本的每一行。

with open('aa.txt','r',encoding='utf-8') as f:
  lines=f.readlines()

python用match()函數爬數據方法詳解

①判斷每行是否返回了匹配的對象,

②接收匹配對象,并用groups()提取表達式內括號的內容;

for line in lines:
  if re.match(pat,line):   #判斷過濾掉返回None的行,
    ret=re.match(pat,line) #接收匹配對象
    print(ret.groups())

python用match()函數爬數據方法詳解

發現有不符合的行,稍加修改,過濾掉不符合的行:

因為,不合的行都有空格(或其他字符)。可以給第二子組的點 . 換成非[^ ];非空格的任意字符,意思就是不要有空格的。

python用match()函數爬數據方法詳解

用f-string格式化對輸出的文本稍加修飾,使用group(1),group(2);

python用match()函數爬數據方法詳解

可以將這段代碼封裝為一個函數。爬取百度視頻的其他欄目。

python用match()函數爬數據方法詳解

測試: 百度視頻的電影,電視劇,和動漫等欄目,網頁上的格式基本相同,所以用上面的函數直接套用。

打開百度視頻的動漫,復制源代碼,存為bb.txt。

同樣可以爬取網址和視頻名稱。

以上僅是練習match()函數的例子。

python用match()函數爬數據方法詳解

以上就是關于python如何用match()函數爬數據的全部內容,感謝大家的閱讀和對億速云的支持。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

浙江省| 板桥市| 岢岚县| 湛江市| 麻江县| 湖南省| 奇台县| 十堰市| 湾仔区| 德清县| 元阳县| 邢台市| 荣成市| 海丰县| 永年县| 灵璧县| 阿城市| 万全县| 南阳市| 平南县| 贞丰县| 华亭县| 通渭县| 萍乡市| 安义县| 神池县| 乌兰县| 南部县| 凤庆县| 瑞昌市| 涿鹿县| 思南县| 盘山县| 禄丰县| 彭泽县| 金昌市| 乌苏市| 三明市| 乃东县| 广平县| 康平县|