您好,登錄后才能下訂單哦!
本篇內容主要講解“怎么在MaxCompute上分析IP來源”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“怎么在MaxCompute上分析IP來源”吧!
淘寶IP地址庫官網地址 http://ip.taobao.com/ ,其查詢接口[ http://ip.taobao.com/service/getIpInfo.php?ip=[ip 地址字串]]( http://ip.taobao.com/service/getIpInfo.php?ip=[ip 地址字串]),如下所示:
cdn.nlark.com/lark/0/2018/png/26173/1541753257262-66a9ae70-e251-48ba-a9ee-72cf4b7fd581.png">
但是在MaxCompute中禁止使用http請求,那么如何實現在MaxCompute中進行IP的查詢?
目前有三種方式:
用SQL將數據查詢到本地,再發起http請求查詢。-->效率低下,且淘寶IP庫查詢頻率需小于10qps,否則拒絕請求。
下載IP地址庫到本地,進行查詢。-->同樣效率低,且不利于數倉等分析使用。
將IP地址庫定期維護上傳至MaxCompute,進行連接查詢。-->比較高效,但是IP地址庫需自己定期維護。
① IP地址庫下載, http://ip.taobao.org:9999/ipdata_download.html 下載需要的格式數據。本文以[基本數據格式]為例。
②下載UTF-8數據,打開看看數據格式。
前四個數據是IP地址的起始地址與結束地址,前兩個是十進制整數形式,后兩個是點分形式。這里我們使用整數形式,以便計算IP是否屬于這個網段。
①創建表DDL:
DROP TABLE IF EXISTS ipresource ;CREATE TABLE IF NOT EXISTS ipresource ( start_ip BIGINT ,end_ip BIGINT ,start_ip_arg string ,end_ip_arg string ,country STRING ,area STRING ,city STRING ,county STRING ,isp STRING) ;
②使用Tunnel上傳文件(文件>10MB需要使用 Tunnel upload命令 )
odps@ workshop_demo>tunnel upload ipdata.txt.utf8 ipresource;
可以通過SQL查看到表中共計上傳2369306條數據。
③查看ipresource表樣本數據。
通過編寫Python UDF將點號分割的IP地址轉化為int類型的IP。詳細如下:
①添加Python 資源。
②編寫Python資源代碼。
from odps.udf import annotate@annotate("string->bigint")class ipint(object): def evaluate(self, ip): try: return reduce(lambda x, y: (x << 8) + y, map(int, ip.split('.'))) except: return 0
點擊提交并解鎖。
③新建自定義函數:
提交并解鎖:
④驗證ipint函數是否生效并滿足預期值。
以具體IP地址為例,在正常情況會以具體表的字段來讀進來。
保證數據準確性可以定期從淘寶IP庫獲取數據來維護ipresource這個表。
到此,相信大家對“怎么在MaxCompute上分析IP來源”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。