您好,登錄后才能下訂單哦!
上次寫的爬蟲雖然數據爬下來了,但是有亂碼問題。查了相關的書之后,找到解決辦法。重新寫了一下,好像比之前更簡潔了。
解決辦法是:引入iconv-lite模塊,用來轉換編碼的網頁內容。
這次跟著書上用了request模塊,而不是用原來的http模塊。 var request = require('request'); var cheerio = require('cheerio'); var iconv = require('iconv-lite'); //博客標題 request({ url:'http://qmkkd.blog.51cto.com/', encoding:null },function(err,res,body){ if(err) return console.log(err); body = iconv.decode(body,'gbk'); //根據網頁內容創建DOM操作對象 var $ = cheerio.load(body); //讀取博文類別列表 var bloglist = []; $('.blogList .artHead h4 a').each(function(){ var $me = $(this); var name = $me.text().trim(); bloglist.push(name); }); //輸出結果 console.log(bloglist); });
結果如下:
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。