亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

nodejs爬蟲遇到亂碼怎么辦

發布時間:2021-07-13 15:41:56 來源:億速云 閱讀:276 作者:小新 欄目:web開發

這篇文章主要為大家展示了“nodejs爬蟲遇到亂碼怎么辦”,內容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領大家一起研究并學習一下“nodejs爬蟲遇到亂碼怎么辦”這篇文章吧。

使用nodejs程序解析了網頁編碼為gbk,gb2312,以及utf-8的情況,這里面有三種特殊的亂碼情況需要單獨的說明一下.

1,網頁編碼為utf-8,但是解析為亂碼,代表網站為www.guoguo-app.com。

這個問題真是個逗逼問題,查看網頁源碼中給出的編碼方式為utf8,如下:

<meta charset="UTF-8">
<title>查快遞</title>

由于解析出來的始終是亂碼,我就抓包看了下,報文中的編碼方式為gbk,果然我使用gbk的方式之后,得到的不再是亂碼了。淘寶為了反爬蟲也是操碎了新,但是我也很好奇這種方式是怎么實現的,知道的告訴我。

GET / HTTP/1.1
Host: www.guoguo-app.com
Connection: close

HTTP/1.1 200 OK
Date: Thu, 06 Apr 2017 01:56:23 GMT
Content-Type: text/html;charset=GBK
Transfer-Encoding: chunked
Connection: close
Vary: Accept-Encoding
Vary: Accept-Encoding
Content-Language: zh-CN
Server: Tengine/Aserver

1,網頁編碼為utf-8,解析為亂碼情況二,代表網站http//andersonjiang.blog.sohu.com/

單純的查看網頁源碼看不出任何毛病,于是我又抓了一次包,得到如下情形:

GET / HTTP/1.1
Host: andersonjiang.blog.sohu.com
Connection: close

HTTP/1.1 200 OK
Content-Type: text/html; charset=GBK
Transfer-Encoding: chunked
Connection: close
Server: nginx
Date: Thu, 06 Apr 2017 02:10:33 GMT
Vary: Accept-Encoding
Expires: Thu, 01 Jan 1970 00:00:00 GMT
RHOST: 192.168.110.68@11177
Pragma: No-cache
Cache-Control: no-cache
Content-Language: en-US
Content-Encoding: gzip
FSS-Cache: MISS from 13539701.18454911.21477824
FSS-Proxy: Powered by 9935166.11245896.17873234

andersonjiang.blog.sohu.com這個網站同時采用了Transfer-Encoding: chunked傳輸編碼和Content-Encoding: gzip內容編碼功能,由于nodejs爬蟲沒有gzip解包功能,因此該網站提取不到任何字段,即title和charset等。要想提取此類網站則要添加gzip解包功能。

下面兩個網站www.cr173.com以及www.csdn.net是正常的抓包情況。

GET / HTTP/1.1
Host: www.cr173.com
Connection: close

HTTP/1.1 200 OK
Expires: Thu, 06 Apr 2017 02:42:20 GMT
Date: Thu, 06 Apr 2017 02:12:20 GMT
Content-Type: text/html
Last-Modified: Thu, 06 Apr 2017 00:52:42 GMT
ETag: "96a4141970aed21:0"
Cache-Control: max-age=1800
Accept-Ranges: bytes
Content-Length: 158902
Accept-Ranges: bytes
X-Varnish: 1075189606
Via: 1.1 varnish
X-Via: 1.1 dxxz46:4 (Cdn Cache Server V2.0), 1.1 oudxin15:1 (Cdn Cache Server V2.0)
Connection: close
GET / HTTP/1.1
Host: www.csdn.net
Connection: close

HTTP/1.1 200 OK
Server: openresty
Date: Thu, 06 Apr 2017 02:18:59 GMT
Content-Type: text/html; charset=utf-8
Content-Length: 99363
Connection: close
Vary: Accept-Encoding
Last-Modified: Thu, 06 Apr 2017 02:10:02 GMT
Vary: Accept-Encoding
ETag: "58e5a37a-18423"
Accept-Ranges: bytes

3,網頁編碼為其他形式的編碼,解析為亂碼,例如:

(1)編碼為Big5,代表網站為 www.ruten.com.tw, www.ctgoodjobs.hk

(2)編碼為Shift_JIS,代表網站為www.vector.co.jp,www.smbc.co.jp

(3)編碼為windows-12,代表網站為www.tff.org,www.pravda.com.ua

(4)編碼為EUC-JP,代表網站為www.showtime.jp

(5)編碼為EUC-KR ,代表網站為www.incruit.com,www.samsunghospital.com,

由于iconv-lite的說明中支持如下的編碼方式:

Currently only a small part of encodings supported:

 All node.js native encodings: 'utf8', 'ucs2', 'ascii', 'binary', 'base64'.
 Base encodings: 'latin1'
 Cyrillic encodings: 'windows-1251', 'koi8-r', 'iso 8859-5'.
 Simplified chinese: 'gbk', 'gb2313'.

Other encodings are easy to add, see the source. Please, participate
因此對于上述出現的網頁編碼,只有自己添加解碼方式加以解決了。

總之要寫一個通用的爬蟲程序還有很長的路要走。

以上是“nodejs爬蟲遇到亂碼怎么辦”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

太谷县| 太白县| 四平市| 和硕县| 峨山| 永福县| 临潭县| 临澧县| 建昌县| 青海省| 南川市| 汾阳市| 乃东县| 长治市| 全南县| 江孜县| 二连浩特市| 扎鲁特旗| 固安县| 滕州市| 庆云县| 肇庆市| 武胜县| 东乡族自治县| 广德县| 兰西县| 临朐县| 元朗区| 绥江县| 丰顺县| 青岛市| 繁峙县| 格尔木市| 黔江区| 兰溪市| 宽甸| 资兴市| 双城市| 岑溪市| 静海县| 普定县|