您好,登錄后才能下訂單哦!
這篇文章主要介紹Python如何爬取美劇隨時看,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!
最早一部《越獄》轉變了我對美劇的看法。主人公scofield的聰明才智和堅強的毅力,《絕命毒師》里面主人公的中年逆襲,《紙牌屋》里面老謀深算的政客,等等,這些美劇和里面鮮活的任務,至今令人記憶尤新。
最近,又迷上了美劇,無奈多數視頻平臺上的美劇都是收費的。對于一個資深Pythoner,我們可以用Python自動獲取美劇的網址,下載了慢慢看。
我們以天天看M劇這個網站為例,來展示如何分析和下載這些內容,這里提供一種思路供大家學習。當然,我們還是得支持正版內容,這里是介紹技術,大家勿用于非法用途哦,電影下載后請遵照網站協議及時刪除。
準備網址
網址大家自己找。我們在主頁搜索“危機邊緣”
然后我們獲得1-5季的網址內容,如下圖
我們知道了1-5季的網址信息,然后,我們來看一下每一個頁面的結構。
分析頁面內容
我們打開第一季的頁面,看下需要獲取的內容,如下圖:
我們需要的是每一集的網址信息(上圖中紅色框線中的內容),通過將各個季的每一集網址內容下載下來,按季保存為txt文件,然后使用下載工具導入下載即可。
Python如何實現
我們知道,爬取信息主要使用的一些經典庫。
我們這里主要使用兩個經典的庫requests和bs4。親測該網站沒有反爬措施,因此我們沒有涉及這些內容,感興趣的小伙伴自己學習下相關內容。
我們的一般思路是這樣的,下面來看下Python實現過程。
我們定義三個函數,主要代碼如下:
【獲取網頁內容】
def getHtml(url): return requests.get(url)
直接返回了網頁的文本內容。
【獲取每頁網址信息】
def getInfo(html): lst = [] bs = BeautifulSoup(html.text, 'html.parser') urls = bs.findAll('tbody')[0] for item in urls.findAll('a'): lst.append((item.get("href"), item.text)) return lst
傳入每一季的頁面內容,以列表信息返回每一集的網址和每一集的名字。
【保存內容】
def saveInfo(name, lst): with open('第{}季.txt'.format(name), 'w') as f: for item in lst: f.write(item[0] + '\n')
傳入每一季的名稱的該季中的每一集的網址列表,保存在本地。
做輪子
沒錯,簡單的三步實現了我們需要的效果。下面,我們開始“造輪子”。
下面我們來看看我們實現的功能。
好了,我們的內容成功獲取到了,然后自己下載吧!
程序擴展
聰明的小伙伴一定想到了,還有很多好看的美劇呢,我們如何下載其它的內容呢?
如何下載其它視頻呢?
過程同上,先到主頁搜索,然后更改我們的url_list列表,執行程序即可!接觸過前端的小伙伴肯定知道,每個網站的結構基本是相同的,我們這樣的方法在天天看M劇的主頁上應該是通用的。感興趣的小伙伴自己下載看看咯。
以上是Python如何爬取美劇隨時看的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。