在PHP中,要獲取HTML頁面信息,可以使用DOMDocument類和DOMXPath類。以下是一個簡單的示例,展示了如何使用這些類來獲取頁面標題和所有鏈接:
<?php
// 創建一個新的DOMDocument實例
$doc = new DOMDocument();
// 加載HTML頁面
libxml_use_internal_errors(true); // 禁用錯誤報告,以防HTML不規范
$doc->loadHTMLFile('example.html');
libxml_clear_errors(); // 清除錯誤緩存
// 獲取頁面標題
$title = $doc->getElementsByTagName('title')->item(0)->nodeValue;
echo "頁面標題: " . $title . PHP_EOL;
// 創建一個新的DOMXPath實例
$xpath = new DOMXPath($doc);
// 使用XPath查詢獲取所有鏈接
$links = $xpath->query("//a[@href]");
echo "頁面鏈接:" . PHP_EOL;
foreach ($links as $link) {
$href = $link->getAttribute('href');
echo " " . $href . PHP_EOL;
}
?>
在這個示例中,我們首先創建了一個DOMDocument實例,然后加載了HTML頁面。接下來,我們獲取了頁面標題,并使用DOMXPath類查詢了所有具有href
屬性的<a>
標簽。最后,我們遍歷并輸出了所有鏈接。