亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python爬取免費或付費小說的示例分析

發布時間:2021-10-26 09:08:30 來源:億速云 閱讀:1610 作者:柒染 欄目:大數據

本篇文章給大家分享的是有關python爬取免費或付費小說的示例分析,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。

小說相信大家都愛看吧一章接一章具有極大的吸引力 看了還想看,當然付費小說價格也不便宜 看到一半突然收費 猝不及防!在我們程序員這里 收費是不存在的 萬物皆可爬

什么是網絡爬蟲

網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

環境:Python3.6+Windows

開發工具:你喜歡用哪個就用哪個,你開心就好!

主要思路:

1 獲取主頁源代碼

2 獲取章節超鏈接

3 獲取章節超鏈接源碼

4 獲取小說內容

5 下載,文件操作

python爬取免費或付費小說的示例分析

Python代碼了解一下

import urllib.requestimport re# 1 獲取主頁源代碼# 2 獲取章節超鏈接# 3 獲取章節超鏈接源碼# 4 獲取小說內容# 5 下載,文件操作
# 駝峰命名法# 獲取小說內容def getNovertContent():    # <http.client.HTTPResponse object at 0x000001DFD017F400>    html = urllib.request.urlopen("http://www.quanshuwang.com/book/0/269").read()    html = html.decode("gbk")    # 不加括號  不匹配    # 正則表達式  .*?  匹配所有    reg = r'<li><a href="(.*?)" title=".*?">(.*?)</a></li>'    # 增加效率的    reg = re.compile(reg)    urls = re.findall(reg,html)    # print(urls)    # 列表    # [(http://www.quanshuwang.com/book/0/269/78850.html,第一章 山邊小村),    # (http://www.quanshuwang.com/book/0/269/78854.html,第二章 青牛鎮)]    for url in urls:        # 章節的URL地址        novel_url = url[0]        # 章節標題        novel_title = url[1]
       chapt = urllib.request.urlopen(novel_url).read()        chapt_html = chapt.decode("gbk")        # r 表示原生字符串   \ \\d  r"\d"        reg = r'</script>&nbsp;&nbsp;&nbsp;&nbsp;(.*?)<script type="text/javascript">'        # S 代表多行匹配        reg = re.compile(reg,re.S)        chapt_content = re.findall(reg,chapt_html)        # print(chapt_content)        # 列表["&nbsp;&nbsp;&nbsp;&nbsp二愣子睜大著雙眼,直直望著茅草和爛泥糊成的<br />"]
       # 第一個參數   要替換的字符串   替換后的字符串        chapt_content = chapt_content[0].replace("&nbsp;&nbsp;&nbsp;&nbsp;","")        # print(chapt_content)    字符串  二愣子睜大著雙眼,直直望著茅草和爛泥糊成的<br />        chapt_content = chapt_content.replace("<br />","")
       print("正在保存 %s"%novel_title)        # w 讀寫模式  wb        # f = open("{}.txt".format(novel_title),'w')        # f.write(chapt_content)
       with open("{}.txt".format(novel_title),'w') as f:            f.write(chapt_content)
       # f.close()
getNovertContent()

運行結果:

python爬取免費或付費小說的示例分析

python爬取免費或付費小說的示例分析

以上就是python爬取免費或付費小說的示例分析,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

台湾省| 鸡泽县| 米林县| 柳州市| 和静县| 呼和浩特市| 厦门市| 石首市| 定陶县| 星子县| 深圳市| 虹口区| 尚义县| 从江县| 五大连池市| 屏东市| 清流县| 江川县| 台湾省| 巴彦淖尔市| 蓝山县| 儋州市| 灵山县| 紫阳县| 阿图什市| 乌审旗| 铜陵市| 揭东县| 汝阳县| 阳新县| 隆尧县| 榕江县| 广水市| 五寨县| 竹北市| 铜梁县| 白城市| 吉水县| 西乌| 沂南县| 都兰县|