您好,登錄后才能下訂單哦!
小編給大家分享一下java多線程爬蟲爬取百度圖片的方法,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
Java的特點有哪些 1.Java語言作為靜態面向對象編程語言的代表,實現了面向對象理論,允許程序員以優雅的思維方式進行復雜的編程。 2.Java具有簡單性、面向對象、分布式、安全性、平臺獨立與可移植性、動態性等特點。 3.使用Java可以編寫桌面應用程序、Web應用程序、分布式系統和嵌入式系統應用程序等。
在網絡爬蟲中,python爬蟲和java爬蟲都有多線程,python雖然代碼簡單易操作,但是在多線程操作中,python 不及java。如果想要加快爬蟲速度,可以采用java多線程網絡爬蟲的方法。本文介紹java爬蟲使用多線程的方法爬取百度圖片。
一、java多線程
線程是指一個任務從頭至尾的執行流。
線程提供了運行一個任務的機制。
對于Java而言,可以在一個程序中并發地啟動多個線程。這些線程可以在多處理器系統上同時運行。
二、使用java多線程網絡爬蟲:設計構造器。
1、獲取想要的頁面
public class major { public static void main(String[] args) { int sum = 0; List<String> urlMains = new ArrayList<>(); List<String> imageUrls = new ArrayList<>(); //首先得到10個頁面 urlMains = CreateUrl.CreateMainUrl(); out.println(urlMains.size()); for(String urlMain : urlMains) { out.println(urlMain); }
2、使用Jsoup和FastJson解析出所有的圖片源鏈接
imageUrls = CreateUrl.CreateImageUrl(urlMains); for(String imageUrl : imageUrls) { out.println(imageUrl); }
3、創建出每個圖片所屬的文件夾,并對圖片源鏈接進行下載(使用多線程進行下載)創建進程
ImageFile.createDir(); int average = imageUrls.size()/10; for(int i = 0; i < 10; i++){ int begin = sum; sum += average; int last = sum; Thread image = null; if(i < 9) { image = new Thread(new ImageFile(begin, last, (ArrayList<String>) imageUrls)); } else { image = new Thread(new ImageFile(begin, imageUrls.size(), (ArrayList<String>) imageUrls)); } image.start(); } } }
以上是“java多線程爬蟲爬取百度圖片的方法”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。