怎么用PHP代碼采集微信公眾號的文章

發布時間：2021-09-04 17:54:04 來源：億速云閱讀：161 作者：chen 欄目：開發技術

本篇內容介紹了“怎么用PHP代碼采集微信公眾號的文章”的有關知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠學有所成！

通過搜狗搜索采集公眾號歷史消息有幾個問題：

1、有驗證碼；

2、歷史消息列表只有最近10條群發內容；

3、文章地址是有有效期的；

4、據說批量采集還要換ip；

通過我前面文章的方法就沒有這些問題，雖然采集系統搭建不如傳統采集器寫個規則去爬就可以了那么簡單。但是一次搭建好之后批量采集的效率還是可以的。而且采集的文章地址是永久有效的，并且可以采集到一個公眾號所有的歷史消息。
我們還是從一個公眾號文章的鏈接地址開始看：

1、從微信右上角菜單復制到的鏈接地址：

http://mp.weixin.qq.com/s/fF34bERZ0je_8RWEJjoZ5A

2、歷史消息列表中獲取到的地址：

http://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chksm=83d74818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=4#wechat_redirect

3、完整的真實地址：

https://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chksm=83d74818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=37&key=c81d77271180a0e6ce32be2d9dcaa2a7436aeba2c1d47a20d02194d1c944a8286a8eded93495eeadd05da412bbfaa638a379750aeaa4cf5c00e4d7851c5710d9b9736b80e3c72770a57a515c23ff2400&ascene=3&uin=MzUyOTIyNQ%3D%3D&devicetype=iOS10.1.1&version=16050120&nettype=WIFI&fontScale=100&pass_ticket=FGRyGfXLPEa4AeOsIZu7KFJo6CiXOZex83Y5YBRglW4%3D&wx_header=1

以上這3個地址是同一篇文章的地址，在不同位置獲取到就得到了完全不同的3個結果。

和歷史消息頁一樣，微信有一套自動補充參數的機制。第一個地址是復制鏈接得到的，看起來是一個偽裝的編碼。其實沒什么用我們不做考慮了。第二個地址是通過前面文章介紹的方法，從歷史消息的json文章列表中獲得到的鏈接地址，我們就是可以將這個地址保存到數據庫中。之后就可以通過這個地址從服務器獲取到文章內容。而第三個鏈接補充了參數之后，目的是為了讓文章頁面中的閱讀量js可以獲取到閱讀量點贊量的json結果而加上的參數。我們前面文章的方法中因為文章頁面被客戶端打開顯示了出來，因為有了這些參數，文章頁面中的js就去自動獲取閱讀量了，所以我們才能通過代理服務獲取到這篇文章的閱讀量。

這篇文章的內容就是以通過本專欄前面文章介紹的方法已經獲取到了大量微信文章的基礎上，詳細研究如何獲取到文章內容和其它一些有用的信息的方法。

怎么用PHP代碼采集微信公眾號的文章

（我的數據庫中保存的文章列表，一部分字段）

1、獲取文章源代碼：

通過php的函數file_get_content()就可以將文章源代碼讀取到變量中。微信文章的源代碼因為可以從瀏覽器中打開所以我就不在這里粘貼了，以免浪費頁面空間。

<?
//$content_url 變量的值為文章地址
$html = file_get_contents($content_url);
?>

2、源代碼中有用的信息：

1）原文內容：

原文內容是包含在一個<div id='js_content'></div>標簽中的，通過php代碼獲取：

<?
preg_match_all("/id=\"js_content\">(.*)<script/iUs",$html,$content,PREG_PATTERN_ORDER);
$content = "<div id='js_content'>".$content[1][0];
?>

正則的開頭識別<div id='js_content'>，結尾識別<script/iUs，匹配到之后前面再補充一個<div id='js_content'>；我的正則匹配水平有限，只能寫成這樣的了。希望有高人能指點更好的正則匹配方法。

另外注意：這個匹配規則會可能在一段時間之后有變化。這篇文章會盡量保持更新。如果你根據我的文章制作了采集系統之后，當某一天失效了，別忘了回來再看看文章是否有更新。

2）內容處理：

通過上面的方法我們獲得了文章內容的html，但是你將文章內容顯示出來之后就會發現，圖片和視頻不能正常顯示。因為這個html還需要一些加工：

首先是圖片，微信文章中的<img>標簽中的src屬性全部都用了data-src屬性代替。只有在顯示的時候才會被替換過來。所以我們也有兩個方案，將源代碼直接替換過來，或者用js在顯示時候再替換。下面我先介紹直接替換html的方法：

<?
//$content變量的值是前面獲取到的文章內容html
$content = str_replace("data-src","src",$content);
?>

然后是視頻，視頻的顯示不正常，經過長期測試后發現只要替換一個頁面地址就能解決，過程就不說了，直接說結果：

<?
//$content變量的值是前面獲取到的文章內容html
$content = str_replace("preview.html","player.html",$content);
?>

通過這兩個替換之后，文章內容html中的圖片和視頻就都正常了。

3) 公眾號相關信息：

通過本專欄之前的文章，介紹了我們使用微信客戶端，任意打開一個公眾號的歷史消息頁之后。系統從數據庫中識別biz的值，發現數據庫中沒有記錄，就會插入一條新的紀錄。之后的采集隊列就會定期根據這個biz來獲取這個公眾號的歷史消息列表。

但是我們只獲得了這個公眾號的biz，公眾號的名稱，頭像這兩個重要信息還是沒有獲取到。主要原因是歷史消息頁面中沒有這兩個信息。但是我們可以從文章頁面中獲取到。

在微信文章頁面html的底部，有一些js的變量賦值的代碼，通過正則匹配之后我們就可以獲得這兩個公眾號的信息：

<?
//$html變量的值是前面獲取到的文章全部html
preg_match_all('/var nickname = \"(.*?)\";/si',$html,$m);
$nickname = $m[1][0];//公眾號昵稱
preg_match_all('/var round_head_img = \"(.*?)\";/si',$html,$m);
$head_img = $m[1][0];//公眾號頭像
?>

通過這兩個正則匹配，我們就能獲取到公眾號的頭像和昵稱，然后根據文章地址中的biz，可以保存到對應的微信號數據表中。

3、文章的保存和處理

前面的代碼已經將文章內容獲取到變量中了。如何保存其實每個人也許都有自己的想法。我這里介紹一下我的保存內容的方法：

將文章內容的html以數據庫id為文件名保存成html文件，以biz字段為目錄。

<?
$dir = "./".$biz."/";
$filename = $dir.$id.".html";
if(!is_dir($dir)) {
  mkdir($cache_dir);
  chmod($cache_dir,0777);
}
$file = fopen($filename, "w");
fwrite($file, $content);
fclose($file);
?>

以上代碼是一個標準的php建立文件夾保存文件的代碼，大家可以根據自己的實際情況安排保存方法。

在這之后我們就可以在自己的服務器上得到一個html文件，內容就是公眾號的文章內容。我們可以從瀏覽器中打開看一下。這時你也許會發現圖片防盜鏈了！無法正常顯示！包括數據庫中保存的文章封面圖，公眾號的頭像都是防盜鏈的。

別急，這個問題很好解決，只需要將圖片也保存到自己的服務器，無非是將來會占用自己的服務器空間和帶寬。

圖片防盜鏈的原理是當圖片在網頁中顯示的時候，圖片服務器會檢測到引用這張圖片的服務器域名，當發現服務器域名不包含http://qq.com或http://qpic.cn的時候就會被替換成防盜鏈圖片。

但是如果檢測不到引用頁面的域名就會正常顯示，所以我們通過php的函數file_get_content()就可以將圖片的二進制代碼獲取過來，然后根據自己的想法起個文件名保存到自己的服務器上。在這里再介紹一個保存圖片的方法，我目前使用了騰訊云的“萬象優圖”，通過它們提供的api將圖片保存到云空間，這樣的好處是讀取圖片時直接在圖片的鏈接地址加上希望得到的圖片尺寸大小參數，就可以直接得到一張縮略圖。比存在自己的服務器方便得多。阿里云也應該有同樣的產品，好像名叫對象存儲。

另外，我采集公眾號內容的目的是制作成一個新聞app，在app中將html代碼顯示出來之后，因為app同樣沒有域名，防盜鏈服務器也同樣不會認為圖片被盜鏈了。這樣就可以直接顯示圖片出來。

“怎么用PHP代碼采集微信公眾號的文章”的內容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站，小編將為大家輸出更多高質量的實用文章！

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

怎么用PHP代碼采集微信公眾號的文章

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

怎么用PHP代碼采集微信公眾號的文章

猜你喜歡

最新資訊

相關推薦

相關標簽