亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Java爬取豆瓣電影數據的方法詳解

發布時間:2020-09-30 17:11:29 來源:腳本之家 閱讀:179 作者:一枕江風 欄目:編程語言

本文實例講述了Java爬取豆瓣電影數據的方法。分享給大家供大家參考,具體如下:

所用到的技術有Jsoup,HttpClient。

Jsoup

jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數據。

HttpClient

HTTP 協議可能是現在 Internet 上使用得最多、最重要的協議了,越來越多的 Java 應用程序需要直接通過 HTTP 協議來訪問網絡資源。雖然在 JDK 的 java net包中已經提供了訪問 HTTP 協議的基本功能,但是對于大部分應用程序來說,JDK 庫本身提供的功能還不夠豐富和靈活。HttpClient 是 Apache Jakarta Common 下的子項目,用來提供高效的、最新的、功能豐富的支持 HTTP 協議的客戶端編程工具包,并且它支持 HTTP 協議最新的版本和建議。

爬取豆瓣電影數據

豆瓣電影網址。

https://movie.douban.com/explore#!type=movie&tag=熱門&sort=recommend&page_limit=20&page_start=0

打開瀏覽器f12,地址欄中輸入該地址訪問,可以看到請求響應的頁面,對應可以找到電影數據的請求地址,數據請求地址

https://movie.douban.com/j/search_subjects?type=movie&tag=熱門&sort=recommend&page_limit=20&page_start=0

Java爬取豆瓣電影數據的方法詳解

可以看到數據請求地址響應過來的是一個JSON格式的數據,之后我們看到請求地址上的參數type=movie&tag=熱門&sort=recommend&page_limit=20&page_start=0。其中type是電影tag是標簽,sort是按照熱門進行排序的,page_limit是每頁20條數據,page_start是從第幾條數據開始查詢(下標從0開始)。但是這不是我們想要的,我們需要去找豆瓣電影數據的總入口地址是下面這個

https://movie.douban.com/j/search_subjects

創建SpringBoot項目爬取數據

把爬取到的數據保存到數據庫中,電影圖片保存在本地磁盤中,這里持久層用的是JPA,所以需要引入對應的依賴。pom.xml中依賴代碼如下。

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
     xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <parent>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-parent</artifactId>
    <version>2.2.1.RELEASE</version>
    <relativePath/> <!-- lookup parent from repository -->
  </parent>
  <groupId>com.mcy</groupId>
  <artifactId>crawler-douban</artifactId>
  <version>0.0.1-SNAPSHOT</version>
  <name>crawler-douban</name>
  <description>Demo project for Spring Boot</description>
 
  <properties>
    <java.version>1.8</java.version>
  </properties>
 
  <dependencies>
    <dependency>
      <groupId>org.springframework.boot</groupId>
      <artifactId>spring-boot-starter-data-jpa</artifactId>
    </dependency>
    <dependency>
      <groupId>org.springframework.boot</groupId>
      <artifactId>spring-boot-starter-web</artifactId>
    </dependency>
 
    <dependency>
      <groupId>mysql</groupId>
      <artifactId>mysql-connector-java</artifactId>
      <scope>runtime</scope>
    </dependency>
    <dependency>
      <groupId>org.springframework.boot</groupId>
      <artifactId>spring-boot-starter-test</artifactId>
      <scope>test</scope>
      <exclusions>
        <exclusion>
          <groupId>org.junit.vintage</groupId>
          <artifactId>junit-vintage-engine</artifactId>
        </exclusion>
      </exclusions>
    </dependency>
    <!--httpclient-->
    <dependency>
      <groupId>org.apache.httpcomponents</groupId>
      <artifactId>httpclient</artifactId>
      <version>4.5.2</version>
    </dependency>
    <!--jsoup,解析HTML-->
    <dependency>
      <groupId>org.jsoup</groupId>
      <artifactId>jsoup</artifactId>
      <version>1.11.3</version>
    </dependency>
    <dependency>
      <groupId>com.alibaba</groupId>
      <artifactId>fastjson</artifactId>
      <version>1.2.47</version>
    </dependency>
  </dependencies>
 
  <build>
    <plugins>
      <plugin>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-maven-plugin</artifactId>
      </plugin>
    </plugins>
  </build>
 
</project>

項目目錄結構如下。

Java爬取豆瓣電影數據的方法詳解

首先我們在entity包中建立實體對象,字段為豆瓣電影的基本信息(有些信息是詳情頁面的信息)。

Movie實體類。

import javax.persistence.*;
 
@Entity
public class Movie {
  private Integer id;
  private double rate;  //評分
  private String title;  //電影名稱
  private String director;  //導演
  private String protagonist; //主演
  private String dateTime;  //電影時長
 
  @Id
  @GeneratedValue(strategy = GenerationType.IDENTITY)
  public Integer getId() {
    return id;
  }
 
  public void setId(Integer id) {
    this.id = id;
  }
 
  public double getRate() {
    return rate;
  }
 
  public void setRate(double rate) {
    this.rate = rate;
  }
 
  public String getTitle() {
    return title;
  }
 
  public void setTitle(String title) {
    this.title = title;
  }
 
  public String getDirector() {
    return director;
  }
 
  public void setDirector(String director) {
    this.director = director;
  }
 
  @Column(length=2000)
  public String getProtagonist() {
    return protagonist;
  }
 
  public void setProtagonist(String protagonist) {
    this.protagonist = protagonist;
  }
 
  public String getDateTime() {
    return dateTime;
  }
 
  public void setDateTime(String dateTime) {
    this.dateTime = dateTime;
  }
}

在src/main/resources下找到application.properties文件,在該配置文件中配置數據庫鏈接信息,需要在數據庫中新建一個名為douban的數據庫。

spring.datasource.url=jdbc:mysql://localhost:3306/douban?serverTimezone=GMT%2B8
spring.datasource.username=root
spring.datasource.password=root
spring.datasource.driver-class-name=com.mysql.cj.jdbc.Driver
spring.jpa.database-platform=org.hibernate.dialect.MySQL5InnoDBDialect
spring.jpa.show-sql=true
spring.jpa.hibernate.ddl-auto=update
spring.jpa.hibernate.use-new-id-generator-mappings=false

創建MovieRepository數據訪問層接口

import com.mcy.crawlerdouban.entity.Movie;
import org.springframework.data.jpa.repository.JpaRepository;
 
public interface MovieRepository extends JpaRepository<Movie, Integer> {
 
}

創建MovieService類,里邊有一個保存數據的方法。

import com.mcy.crawlerdouban.entity.Movie;
import com.mcy.crawlerdouban.repository.MovieRepository;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;
 
@Service
public class MovieService {
  @Autowired
  private MovieRepository movieRepository;
 
  public void save(Movie movie) {
    movieRepository.save(movie);
  }
}

創建一個HttpUtils獲取網頁數據和保存圖片的工具類。

創建連接池和配置連接池信息。

//創建連接池管理器
private static PoolingHttpClientConnectionManager cm;
 
public HttpUtils(){
  cm = new PoolingHttpClientConnectionManager();
  //設置最大連接數
  cm.setMaxTotal(100);
  //設置每個主機的最大連接數
  cm.setDefaultMaxPerRoute(10);
}
 
//配置請求信息
private static RequestConfig getConfig() {
  RequestConfig config = RequestConfig.custom()
      .setConnectTimeout(10000)   //創建連接的最長時間,單位毫秒
      .setConnectionRequestTimeout(10000) //設置獲取鏈接的最長時間,單位毫秒
      .setSocketTimeout(10000)   //設置數據傳輸的最長時間,單位毫秒
      .build();
  return config;
}

根據請求地址獲取響應信息方法,獲取成功后返回響應信息。

public static String doGetHtml(String url, Map<String, String> map, Map<String, String> mapTile) throws URISyntaxException {
  //創建HTTPClient對象
  CloseableHttpClient httpClient = HttpClients.createDefault();
 
  //設置請求地址
  //創建URLBuilder
  URIBuilder uriBuilder = new URIBuilder(url);
 
  //設置參數
  if(!map.isEmpty()){
    for(String key : map.keySet()){
      uriBuilder.setParameter(key, map.get(key));
    }
  }
 
  //創建HTTPGet對象,設置url訪問地址
  //uriBuilder.build()得到請求地址
  HttpGet httpGet = new HttpGet(uriBuilder.build());
 
  //設置請求頭信息
  if(!mapTile.isEmpty()){
    for(String key : mapTile.keySet()){
      httpGet.addHeader(key, mapTile.get(key));
    }
  }
 
  //設置請求信息
  httpGet.setConfig(getConfig());
  System.out.println("發起請求的信息:"+httpGet);
 
  //使用HTTPClient發起請求,獲取response
  CloseableHttpResponse response = null;
  try {
    response = httpClient.execute(httpGet);
    //解析響應
    if(response.getStatusLine().getStatusCode() == 200){
      //判斷響應體Entity是否不為空,如果不為空就可以使用EntityUtils
      if(response.getEntity() != null) {
        String content = EntityUtils.toString(response.getEntity(), "utf8");
        return content;
      }
    }
  }catch (IOException e){
    e.printStackTrace();
  }finally {
    //關閉response
    try {
      response.close();
    } catch (IOException e) {
      e.printStackTrace();
    }
  }
  return "";
}

根據鏈接下載圖片保存到本地方法。

public static String doGetImage(String url) throws IOException {
  //獲取HTTPClient對象
  CloseableHttpClient httpClient = HttpClients.createDefault();
  //設置HTTPGet請求對象,設置url地址
  HttpGet httpGet = new HttpGet(url);
  //設置請求信息
  httpGet.setConfig(getConfig());
  //使用HTTPClient發起請求,獲取響應
  CloseableHttpResponse response = null;
  try {
    //使用HTTPClient發起請求,獲取響應
    response = httpClient.execute(httpGet);
    //解析響應,返回結果
    if(response.getStatusLine().getStatusCode() == 200){
      //判斷響應體Entity是否不為空
      if(response.getEntity() != null) {
        //下載圖片
        //獲取圖片的后綴
        String extName = url.substring(url.lastIndexOf("."));
        //創建圖片名,重命名圖片
        String picName = UUID.randomUUID().toString() + extName;
        //下載圖片
        //聲明OutputStream
        OutputStream outputStream = new FileOutputStream(new File("E://imges/" + picName));
        response.getEntity().writeTo(outputStream);
        //返回圖片名稱
        return picName;
      }
    }
  } catch (IOException e) {
    e.printStackTrace();
  }finally {
    //關閉response
    if(response != null){
      try {
        response.close();
      } catch (IOException e) {
        e.printStackTrace();
      }
    }
  }
  return "";
}

HttpUtils工具類全部代碼。

import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStream;
import java.net.URISyntaxException;
import java.util.Map;
import java.util.UUID;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.client.utils.URIBuilder;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.impl.conn.PoolingHttpClientConnectionManager;
import org.apache.http.util.EntityUtils;
 
public class HttpUtils {
 
  //創建連接池管理器
  private static PoolingHttpClientConnectionManager cm;
 
  public HttpUtils(){
    cm = new PoolingHttpClientConnectionManager();
    //設置最大連接數
    cm.setMaxTotal(100);
    //設置每個主機的最大連接數
    cm.setDefaultMaxPerRoute(10);
  }
 
  //配置請求信息
  private static RequestConfig getConfig() {
    RequestConfig config = RequestConfig.custom()
        .setConnectTimeout(10000)   //創建連接的最長時間,單位毫秒
        .setConnectionRequestTimeout(10000) //設置獲取鏈接的最長時間,單位毫秒
        .setSocketTimeout(10000)   //設置數據傳輸的最長時間,單位毫秒
        .build();
    return config;
  }
 
  /**
   * 根據請求地址下載頁面數據
   * @param url  請求路徑
   * @param map  請求參數
   * @param mapTile  請求頭
   * @return //頁面數據
   * @throws URISyntaxException
   */
  public static String doGetHtml(String url, Map<String, String> map, Map<String, String> mapTile) throws URISyntaxException {
    //創建HTTPClient對象
    CloseableHttpClient httpClient = HttpClients.createDefault();
 
    //設置請求地址
    //創建URLBuilder
    URIBuilder uriBuilder = new URIBuilder(url);
 
    //設置參數
    if(!map.isEmpty()){
      for(String key : map.keySet()){
        uriBuilder.setParameter(key, map.get(key));
      }
    }
 
    //創建HTTPGet對象,設置url訪問地址
    //uriBuilder.build()得到請求地址
    HttpGet httpGet = new HttpGet(uriBuilder.build());
 
    //設置請求頭信息
    if(!mapTile.isEmpty()){
      for(String key : mapTile.keySet()){
        httpGet.addHeader(key, mapTile.get(key));
      }
    }
 
    //設置請求信息
    httpGet.setConfig(getConfig());
    System.out.println("發起請求的信息:"+httpGet);
 
    //使用HTTPClient發起請求,獲取response
    CloseableHttpResponse response = null;
    try {
      response = httpClient.execute(httpGet);
      //解析響應
      if(response.getStatusLine().getStatusCode() == 200){
        //判斷響應體Entity是否不為空,如果不為空就可以使用EntityUtils
        if(response.getEntity() != null) {
          String content = EntityUtils.toString(response.getEntity(), "utf8");
          return content;
        }
      }
    }catch (IOException e){
      e.printStackTrace();
    }finally {
      //關閉response
      try {
        response.close();
      } catch (IOException e) {
        e.printStackTrace();
      }
    }
    return "";
  }
 
  /**
   * 下載圖片
   * @param url
   * @return 圖片名稱
   */
  public static String doGetImage(String url) throws IOException {
    //獲取HTTPClient對象
    CloseableHttpClient httpClient = HttpClients.createDefault();
    //設置HTTPGet請求對象,設置url地址
    HttpGet httpGet = new HttpGet(url);
    //設置請求信息
    httpGet.setConfig(getConfig());
    //使用HTTPClient發起請求,獲取響應
    CloseableHttpResponse response = null;
    try {
      //使用HTTPClient發起請求,獲取響應
      response = httpClient.execute(httpGet);
      //解析響應,返回結果
      if(response.getStatusLine().getStatusCode() == 200){
        //判斷響應體Entity是否不為空
        if(response.getEntity() != null) {
          //下載圖片
          //獲取圖片的后綴
          String extName = url.substring(url.lastIndexOf("."));
          //創建圖片名,重命名圖片
          String picName = UUID.randomUUID().toString() + extName;
          //下載圖片
          //聲明OutputStream
          OutputStream outputStream = new FileOutputStream(new File("E://imges/" + picName));
          response.getEntity().writeTo(outputStream);
          //返回圖片名稱
          return picName;
        }
      }
    } catch (IOException e) {
      e.printStackTrace();
    }finally {
      //關閉response
      if(response != null){
        try {
          response.close();
        } catch (IOException e) {
          e.printStackTrace();
        }
      }
    }
    return "";
  }
}

在項目的test類中編寫代碼獲取數據保存到數據庫中。

先通過@Resource注解將MovieService類對應的實現類注入進來。

@Autowired
private MovieService movieService;

設置請求地址https://movie.douban.com/j/search_subjects

String url = "https://movie.douban.com/j/search_subjects";

之后在定義兩個Map,用于存儲請求頭和請求參數信息。

網頁請求頭。

Java爬取豆瓣電影數據的方法詳解

請求參數,type=movie&tag=熱門&sort=recommend&page_limit=20&page_start=0

設置請求參數和請求頭代碼如下。

Map<String, String> map = new HashMap<>();
Map<String, String> mapTitle = new HashMap<>();
//設置請求參數
map.put("type", "movie");
map.put("tag", "熱門");
map.put("sort", "recommend");
map.put("page_limit", "20");
//i為一個變量,從多少條數據開始查詢
map.put("page_start", i+"");
//設置請求頭
mapTitle.put("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
mapTitle.put("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0");
mapTitle.put("Cookie", "bid=QNoG_zn4mZY; _pk_id.100001.4cf6=6209709719896af7.1575619506.2.1575940374.1575621362.; __utma=30149280.1889677372.1575619507.1575619507.1575940335.2; __utmz=30149280.1575619507.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=223695111.986359939.1575619507.1575619507.1575940335.2; __utmz=223695111.1575619507.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __yadk_uid=QVSP2uvzzDBrpnvHKzZpZEWJnuARZ4aL; ll=\"118259\"; _vwo_uuid_v2=D1FC45CAE50CF6EE38D245C68D7CECC4F|e8d1db73f4c914f0b0be7ed85ac50d14; trc_cookie_storage=taboola%2520global%253Auser-id%3D690a21c0-9ad9-4f8d-b997-f0decb3cfc9b-tuct4e39874; _pk_ses.100001.4cf6=*; ap_v=0,6.0; __utmb=30149280.0.10.1575940335; __utmc=30149280; __utmb=223695111.0.10.1575940335; __utmc=223695111; __gads=ID=2f06cb0af40206d0:T=1575940336:S=ALNI_Ma4rv9YmqrkIUNXsIt5E7zT6kZy2w");

通過HttpUtils類doGetHtml方法獲取該請求響應的數據。

String html = HttpUtils.doGetHtml(url, map, mapTitle);

請求響應數據格式。

Java爬取豆瓣電影數據的方法詳解

可以看出是一個json格式的數據,我們可以通過阿里巴巴的Fastjson一個json解析庫,把它解析成為一個List格式數據。Fastjson基本用法

JSONObject jsonObject = JSONObject.parseObject(html);
JSONArray jsonArray = jsonObject.getJSONArray("subjects");

因為每頁查詢是是20條數據,我們用一個for循環遍歷一下這一頁的數據。可以獲得電影的標題,評分,圖片鏈接和詳情頁面的鏈接,上面JSON數據中的cover屬性值為圖片的地址。通過圖片的鏈接我們可以調用HttpUtils類的doGetImage方法把圖片保存到本地磁盤。

HttpUtils.doGetImage(json.getString("cover"));

上面請求的數據只能獲取到標題,評分和圖片,然而我們還有獲取導演,主演,和電影時長。這些信息我們點開上面請求到的json數據的url屬性值,會打開詳情頁面,詳情頁面中有導演,主演,和電影時長信息。

Java爬取豆瓣電影數據的方法詳解

打開的詳情頁面,我們可以看到導演,主演和電影時長等信息。

Java爬取豆瓣電影數據的方法詳解

我們查詢詳情頁面的源代碼,可以看到導演,主演,電影時長等信息的位置。

Java爬取豆瓣電影數據的方法詳解

我們在通過HttpUtils類doGetHtml方法獲取詳情頁面的數據,利用Jsoup進行解析,Jsoup是一個可以讓java代碼解析HTML代碼的一個工具,可以參考一下Jsoup官網文檔,找到主演,導演和電影時長信息。到這里我們需要的全部信息都獲取到了,最后把數據保存起來。

String url2 = json.getString("url");
Map<String, String> map2 = new HashMap<>();
Map<String, String> mapTitle2 = new HashMap<>();
String html2 = HttpUtils.doGetHtml(url2, map2, mapTitle2);
//解析HTML獲取DOM對象
Document doc = Jsoup.parse(html2);
//獲取導演名稱
Element element = doc.select("div#info a[rel=v:directedBy]").first();
movie.setDirector(element.text());
Elements elements = doc.select("div#info a[rel=v:starring]");
//主演
String protagonist = "";
for (Element e : elements) {
  protagonist += e.text()+",";
}
if(!protagonist.equals("")){
  protagonist = protagonist.substring(0, protagonist.length()-1);
}
movie.setProtagonist(protagonist);
//獲取電影時長
element = doc.select("div#info span[property=v:runtime]").first();
movie.setDateTime(element.text());
movieService.save(movie);

測試類全部代碼如下。

import com.alibaba.fastjson.JSONObject;
import com.mcy.crawlerdouban.entity.Movie;
import com.mcy.crawlerdouban.service.MovieService;
import com.mcy.crawlerdouban.util.HttpUtils;
import com.alibaba.fastjson.JSONArray;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.junit.jupiter.api.Test;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.boot.test.context.SpringBootTest;
 
import java.io.IOException;
import java.net.URISyntaxException;
import java.util.HashMap;
import java.util.Map;
 
@SpringBootTest
class CrawlerDoubanApplicationTests {
 
  @Autowired
  private MovieService movieService;
 
  @Test
  public void contextLoads() throws URISyntaxException, IOException {
    //請求地址
    //https://movie.douban.com/j/search_subjects?type=movie&tag=熱門&sort=recommend&page_limit=20&page_start=0
    String url = "https://movie.douban.com/j/search_subjects";
    Map<String, String> map = new HashMap<>();
    Map<String, String> mapTitle = new HashMap<>();
    //設置請求參數
    map.put("type", "movie");
    map.put("tag", "熱門");
    map.put("sort", "recommend");
    map.put("page_limit", "20");
    //設置請求頭
    mapTitle.put("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
    mapTitle.put("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0");
    mapTitle.put("Cookie", "bid=QNoG_zn4mZY; _pk_id.100001.4cf6=6209709719896af7.1575619506.2.1575940374.1575621362.; __utma=30149280.1889677372.1575619507.1575619507.1575940335.2; __utmz=30149280.1575619507.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=223695111.986359939.1575619507.1575619507.1575940335.2; __utmz=223695111.1575619507.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __yadk_uid=QVSP2uvzzDBrpnvHKzZpZEWJnuARZ4aL; ll=\"118259\"; _vwo_uuid_v2=D1FC45CAE50CF6EE38D245C68D7CECC4F|e8d1db73f4c914f0b0be7ed85ac50d14; trc_cookie_storage=taboola%2520global%253Auser-id%3D690a21c0-9ad9-4f8d-b997-f0decb3cfc9b-tuct4e39874; _pk_ses.100001.4cf6=*; ap_v=0,6.0; __utmb=30149280.0.10.1575940335; __utmc=30149280; __utmb=223695111.0.10.1575940335; __utmc=223695111; __gads=ID=2f06cb0af40206d0:T=1575940336:S=ALNI_Ma4rv9YmqrkIUNXsIt5E7zT6kZy2w");
    //獲取前100條數據,可以自行更改
    for(int i = 0; i < 100; i+=20){
      map.put("page_start", i+"");
      String html = HttpUtils.doGetHtml(url, map, mapTitle);
      JSONObject jsonObject = JSONObject.parseObject(html);
      JSONArray jsonArray = jsonObject.getJSONArray("subjects");
      for(int j = 0; j < jsonArray.size(); j++){ //循環遍歷每頁數據
        Movie movie = new Movie();
        JSONObject json = (JSONObject) jsonArray.get(j);
        movie.setRate(json.getDouble("rate"));
        movie.setTitle(json.getString("title"));
 
        //下載保存圖片
        HttpUtils.doGetImage(json.getString("cover"));
 
        String url2 = json.getString("url");
        Map<String, String> map2 = new HashMap<>();
        Map<String, String> mapTitle2 = new HashMap<>();
        String html2 = HttpUtils.doGetHtml(url2, map2, mapTitle2);
        //解析HTML獲取DOM對象
        Document doc = Jsoup.parse(html2);
        //獲取導演名稱
        Element element = doc.select("div#info a[rel=v:directedBy]").first();
        movie.setDirector(element.text());
        Elements elements = doc.select("div#info a[rel=v:starring]");
        //主演
        String protagonist = "";
        for (Element e : elements) {
          protagonist += e.text()+",";
        }
        if(!protagonist.equals("")){
          protagonist = protagonist.substring(0, protagonist.length()-1);
        }
        movie.setProtagonist(protagonist);
        //獲取電影時長
        element = doc.select("div#info span[property=v:runtime]").first();
        movie.setDateTime(element.text());
        movieService.save(movie);
      }
    }
    System.out.println("數據獲取完成。。。");
  }
}

最后我們在mysql數據庫中新建一個名為douban的數據庫,啟動項目,JPA會自動在數據庫中新建一張movie表,存放獲取到的電影數據。在本地磁盤也會保存電影圖片,如圖。

Java爬取豆瓣電影數據的方法詳解

電影圖片,保存的位置和HttpUtils的doGetImage方法中設置的保存地址一樣。

Java爬取豆瓣電影數據的方法詳解

最后放上下載地址https://github.com/machaoyin/crawler-douban

有什么問題歡迎下方留言交流。

更多關于java相關內容感興趣的讀者可查看本站專題:《Java網絡編程技巧總結》、《Java Socket編程技巧總結》、《Java文件與目錄操作技巧匯總》、《Java數據結構與算法教程》、《Java操作DOM節點技巧總結》和《Java緩存操作技巧匯總》

希望本文所述對大家java程序設計有所幫助。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

钟山县| 天门市| 临高县| 大洼县| 富裕县| 平乡县| 蒲江县| 阳曲县| 普格县| 临漳县| 渑池县| 玉门市| 临西县| 达拉特旗| 邵阳县| 独山县| 五寨县| 新余市| 海南省| 湘潭县| 雷州市| 章丘市| 巴彦淖尔市| 分宜县| 汽车| 恭城| 临沭县| 桦川县| 南投县| 府谷县| 叙永县| 芮城县| 晋宁县| 鸡西市| 夏河县| 兰西县| 封开县| 五家渠市| 信丰县| 天峻县| 杭锦后旗|