Google分析language垃圾信息

發布時間：2020-07-30 17:04:44 來源：網絡閱讀：213 作者：鄒君安欄目：網絡安全

最近一段時間，我在Google Analytics（以下簡稱GA）中查看網站數據時，發現一個非常可疑的信息：

這什么鬼？

“language”這一項一般是 “zh-tw”, “zh-cn”, “en-us”, “es”, “fr”等，它是由用戶瀏覽器設定的。但用戶瀏覽器不可能把語言項設置為這些：

Secret.oogle.com You are invited! Enter only with this ticket URL. Copy it. Vote for Trump!
o-o-8-o-o.com search shell is much better than google!
Vitaly rules google ☆:゜ヽ(^^)゜:☆ ˉ_(ツ)/ˉ(益)()()()( ° °)ヽ(Д) (=^ ^=)oO
Congratulations to Trump and all americans

分析請求

很明顯，這是一種新的 spam（垃圾信息），希望吸引目標人群（可能就是我們這樣的網絡管理員）的注意力。

仔細地觀察這些請求，會發現幾個特點：

請求數有明顯的波峰，在幾天內會達到高峰，然后又降下去
New Sessions 的比例非常高，達到了86%以上

分析其它受***的欄目

仔細查看 GA 統計項目的這些請求，發現 referrer 一欄也比較可疑地出現了這些：

motherboard.vice.com addons.mozilla.org webmasters.stackexchange.com blackhatworld.com thenextweb.com abc.xyz lifehacer.com ...

這其中有一些非常正規的域名。比如abc.xyz是Google的母公司alphabet的官網，thenextweb.com也是一個開發者媒體。

這些網站本身沒有問題，但其實該網站上并沒有任何一個鏈接指向我的博客，更談不上我的訪客“來自”（referral）該網站了。當我訪問回去，發現并沒有實際上的鏈接，只是廣告，倒也罷了，更可怕的是可能會有釣魚、病毒等。

綜上，這是一波二維***（假的語言項和假的 referral 項），目的是吸引你的注意力。

分析***怎么產生的

總的來說，這種垃圾信息有兩種***方式。一種是真正會訪問你的網站的網絡爬蟲；另一種是不訪問你的網站，而是將假冒的“點擊”事件直接發送到GA服務器。事實上，第二種***方式由于成本低，因而更加常見。

GA 的統計邏輯是，當用戶訪問你的網站，會在前端運行一段 JavaScript 代碼，然后把用戶的一些訪問情況通過 HTTP 請求發送給 GA 服務器，告訴 GA 發生了一次“訪問”。而這個 HTTP 請求可以很容易地被偽造，所以垃圾信息發送者無需真的訪問你的站點，它直接發送大量 HTTP 請求即可達到目的。

除了 HTTP 請求，GA 還支持更方便的Measurement Protocol ，開發者可以發送一個原始數據（raw data）給GA，來一次性傳輸大量用戶行為。這個協議的初衷是讓開發者可以統計所有環境下的用戶行為，比如開發者可以將離線狀態下的用戶行為記錄下來，當在線時一次性發送。或者當內網不支持外部訪問時，先記錄下用戶行為，隨后再定時一次性發送到 GA。

初衷是好的，不幸的是，這個過程仍然是無需認證身份，所以更方便了垃圾信息發送者。垃圾信息發送者可以通過一次請求即發送大量假數據，他只需要得到你的 UA-ID（UA-XXXXXXX-XX）即可。

在這個原始數據包中，一切皆可偽造。Hostname？沒問題！Referral？全改了！URL path？當然也可以改……

如何避免

對網站主來說，這種垃圾信息有幾點危害：1、浪費時間，就像傳統垃圾郵件一樣。2、干擾 GA 狀態欄，特別是如果網站流量不是很大（比如我）。3、傳播病毒。

所以，有沒有完美的解決方法呢？實際上，沒有。

要知道，數據一旦錄入到 GA，就沒有辦法刪掉了。能做的只有兩件事，一是阻止垃圾信息進一步加入到 GA，二是在視圖中過濾掉已經添加進來的垃圾信息，眼不見為凈。

第一步：使用過濾器阻止未來的垃圾信息

在語言項中，一般字符數是5-6個，很少有超過10個的，所以我們可以認為語言項超過15個字符的就一定是垃圾信息。

此外，有一些字符是不可能出現在合法的語言項中，但垃圾信息會利用這些字符來組成URL，比如： “secret google com”, “secret,google,com”, “secret!google!com”，所以我們也一并排除空格、點號、逗號、驚嘆號。

.{15,}|\s[^\s]*\s|\.|,|\!|\/

在admin中選擇Filter，然后新增一個如圖所示的過濾器即可。

設置好了之后，可以驗證一下是否會攔截掉我們想攔截的內容：

沒有問題，未來的語言項垃圾信息會直接被攔截掉。

第二步：通過Segment凈化已有數據

過濾器從你開始設置時生效，而歷史信息無法修改。不過 GA 提供了 custom segment 功能，在生成報告時，選擇性過濾掉一些數據。

Segment 就是數據片段，指的是在完整的數據中取出我們需要的片段進行分析。比如我們可以單獨取出24歲以下的用戶的行為，對比24歲以上的用戶行為有何不同。而這個功能正好可以讓我們把“語言”不規范的數據過濾掉。

如下圖，在All Users的旁邊有一個 + Add Segment 的按鈕，點擊之后就可以配置我們的 segment。

一定要注意是選擇“does not match regex”，里面填上之前的正則。

創建好了新的 segment 之后，就會看到過濾之后的全新報告。

下次再進入時，又會默認進入到 All Users 視圖，這時可以在 All Users 里的 custom 里找到我們的自定義 segment，勾選即可。

如果經常需要查看這個 segment，推薦點擊 shortcut 來新增快捷方式。

它會保存當前的 segment 和排序等，下一次可以直接從 Short 項目進入到這個快捷目錄。

以上就是完整的過濾方法了，這樣應該可以過濾掉大部分語言spam的***。GA提供的 filter 和 segment 的功能很強大，如果后續發現有新的垃圾信息，可以繼續通過今天學習的方法來更新完善我們的過濾器。

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

Google分析language垃圾信息

分析請求

分析其它受***的欄目

分析***怎么產生的

如何避免

第一步：使用過濾器阻止未來的垃圾信息

第二步：通過Segment凈化已有數據

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

Google分析language垃圾信息

分析請求

分析其它受***的欄目

分析***怎么產生的

如何避免

第一步：使用過濾器阻止未來的垃圾信息

第二步：通過Segment凈化已有數據

猜你喜歡

最新資訊

相關推薦

相關標簽