您好,登錄后才能下訂單哦!
從19到24節都說的抖音數據的抓取,從web端用戶信息抓取,app端粉絲數據抓取,視頻數據。
1.web端用戶信息抓取
技術困難:
個人數據界面-TTF混淆
解決方案:
枚舉的方式分析出來數字
注意事項:
通過TTF字體數據對應,如果抖音TTF字體庫發生改變,爬蟲也需要做對應修改。
2.app端粉絲數據獲取
技術困難:
appium模擬滑動+mitmdump解析數據
通過一臺設備抓取比較慢,多設備多進程抓取抖音的數據
注意事項:
1.appium模擬滑動抖音粉絲數據,一個名人一般僅能獲取5000條粉絲數據。
2.移動設備設置代理進行抓包后,如遇到無法聯網或無法解析https數據時,需要安裝Xposed框架+JustTrustme組件進行屏蔽證書的校驗。如果用真實手機建議直接刷個帶Xposed框架和開通Root權限的系統,為了避免【變磚】。
3.在設置多設備,多進程數據抓取時,需要設置appium服務端的bootstrap端口,以及客戶端的udid字段。
3.web端視頻數據抓取
技術困難:
破解js獲取signature,通過瀏覽器獲取到signature
注意事項:
視頻抓取,需要破解signature字段,使用拼接html,解析js技術參考:
https://douyin.wlansq.cn/
2個請求中,getjs里面有個tac,最早的時候一直獲取不到數據,后來才知道原來是tac 沒有獲取。
PS:
1.數據抓取的時,需要加上代理,偽裝爬蟲
2.條件允許最好還是使用真實移動設備,最好使用小米,華為的安全性太高了。國產的華為手機安全要求很高,不插入手機卡,usb調試模式都打不開。破解系統還需要收費。
3.小米刷機一般使用【刷機大師】,【刷機精靈】,(【線刷寶】會安裝一些流氓軟件,但是線刷寶確實好用,忍著吧)
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。