上圖是以阿里從2015年到2018年雙十一的例子,左邊的圖為單日作業量,中間的圖為單日處理數據量,右邊的圖為成本的曲線。事實證明,阿里通過飛天平臺以及技術能力,幾乎做到了使業務增長的速度和成本增長的速度相適應。
在此基礎上又做了以下部分優化工作:
1、引擎側:? NativeEngine+LLVM CodeGen,Vectorization+SIMD
? CBO+HBO,Dynamic DAG
? 針對Input/Shuffling海量數據,新引入“富結構化數據”
? 數據可以按Range/Hash方式存儲,支持一級Index和Order
2、存儲側:兼容開源Apache ORC,全新的C++ Writer和改進的 C++ Reader,讀取性能對比CFile2和開源ORC均快50%+。
3、資源側:一套跨集群數據、計算調度能力,將多個集群的
服務器做成一臺計算機。
4、調度系統優化:平均集群利用率70%,除了優化單作業指標,更偏重整個集群的吞吐率。
5、通過混布技術,提升在線服務器利用率到50%以上。同時支持雙十一場景的業務彈性。
部分數據和案例:
? 2015年,SortBenchmark,MaxCompute 100TB GreySort冠軍。
? 2016年,SortBenchmark, EMR 100TB CloudSort冠軍。
? 2017年,MaxCompute+PAI,全球首家100TB規模TPCx-Bigbench測試通過。
? 2018年,MaxCompute+PAI,指BigBench標繼續提升1X+,繼續保持全球最高分數。
? 2018年,Flink內部版是社區性能數倍,2019年開源。
? 2019年,EMR TPC-DS 10TB全球最快
? 2019年,MaxCompute+PAI,指標繼續提升,保持全球第一,30TB性能快一倍,成本低一半。