您好,登錄后才能下訂單哦!
這篇文章將為大家詳細講解有關大數據中AWK命令的示例分析,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。
對于下面的nginx日志access.log,用腳本分析出訪問ip的Top 10。
其實這個題不難,但是考察了幾個常用的shell 命令,awk、uniq、sort、head,我覺得對于做大數據開發、運維、數倉等來說都是應該必備的。
2018-11-20T23:37:40+08:00 119.15.90.30 - "GET /free.php?proxy=out_hp&sort=&page=1 HTTP/1.1" "/free.php" - 200 0.156 362 6849/7213 TLSv1.2 ECDHE-RSA-AES128-GCM-SHA256 - - - "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E; LBBROWSER)"
2018-11-20T23:37:44+08:00 117.30.95.62 - "GET /partner.php HTTP/1.1" "/partner.php" - 200 0.016 457 6534/6956 TLSv1.2 ECDHE-RSA-AES128-GCM-SHA256 - https://blog.csdn.net/ithomer/article/details/6566739 - "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
2018-11-20T23:37:44+08:00 117.30.95.62 - "GET /css/bootstrap.min.css HTTP/1.1" "/css/bootstrap.min.css" - 200 0.045 398 19402/19757 TLSv1.2 ECDHE-RSA-AES128-GCM-SHA256 - https://proxy.mimvp.com/partner.php - "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
2018-11-20T23:37:44+08:00 117.30.95.62 - "GET /css/hint.min.css HTTP/1.1" "/css/hint.min.css" - 200 0.000 393 1635/1989 TLSv1.2 ECDHE-RSA-AES128-GCM-SHA256 - https://proxy.mimvp.com/partner.php - "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
來上答案
cat access.log | awk '{print $2}'| uniq -c | sort -k1 -nr| head -10
其實這個問題還有很多變種,比如除了腳本,用你最熟悉的語言寫出來,還有如果文件過大,超過了內存限制,怎么處理。不過這些都是題外話了,我們今天主要講一下awk在工作中的一些簡單的應用。
其實awk的功能非常強大,不過今天我們主要來講講在我們的工作中比較常用的awk用法。
awk '{[pattern] action}' {filenames}
-F 指定拆分文件的分隔符,默認是空格或者 \t 比如上面的日志我們想獲取第二列的ip地址,我們可以這樣寫
awk -F ' ' '{print $2}' access.log
空格我們是可以不用寫的,我這里寫出來做一個示范。
其實還有一種特殊字符,比如hive中默認分隔符是0x01,這種的使用awk怎么寫呢?
awk -F '\\001' '{ print $1 }' abcd.txt
有一些時候我們可以用awk 截取其中的某幾個字段拼接出來我們想要的一些語句。
比如我們想截取上面access.log里面的ip字段,然后生成一些sql,插入到數據庫。
awk '{print "insert into mytable(ip) values('\''"$2"'\'');"}' access.log > /tmp/ip.sql
有人會問,這種場景一般什么時候會用呢,比如你有一萬條或者更多的數據,你完全可以寫一個sql來插入,但是如果是數量太多的話,一次性寫入太多數據,會導致鎖表,這個時候其他人就沒法插入了,如果是線上的生產環境就更不允許了,所以對于一些類似的操作,我們可以拆分出多個sql來一個個的執行,這樣單個sql鎖表的時間就會減少,避免長時間鎖表帶來的數據庫不可用。
有時候我們只想打印出來一些我們想要的列,我們可以通過正則匹配來做。
比如我們想打印出來上面的access.log中117開頭的ip,可以這樣做.
awk '$2 ~ /^117/ {print $2}' access.log
其實awk還可以幫我們實現一些簡單的類似sql的功能,我們也簡單說一下。
比如我們有一個下面的學生表
id 班級 姓名
id class name
1 1班 張三
2 2班 李四
3 1班 王五
4 3班 趙六
比如我們想統計每個班級有多少同學,可以使用如下命令
awk '{a[$2]++} END {for(i in a){print i"人數 : "a[i]}}' student.txt
關于“大數據中AWK命令的示例分析”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。