在大數據中常見的文件存儲格式有:
文本文件(Text File):以純文本的形式保存數據,例如CSV格式或JSON格式。
序列文件(Sequence File):一種二進制格式,用于存儲鍵值對,適合于Hadoop的MapReduce程序。
Avro文件:一種數據序列化系統,可以將數據結構保存在文件中,使其獨立于編程語言。
Parquet文件:一種列式存儲格式,適合于大規模數據分析,可以高效地讀取和寫入數據。
ORC文件:一種列式存儲格式,優化了數據壓縮和讀取效率,適合于高效的分析查詢。
在Hadoop中支持的壓縮算法有:
Gzip:一種通用的壓縮算法,可以顯著減小文件大小,但讀寫速度較慢。
Snappy:一種快速的壓縮/解壓縮算法,適合于高速數據處理。
LZO:一種高壓縮比的壓縮算法,適合于大規模數據處理,但需要額外的安裝和配置。
Bzip2:一種高壓縮比的壓縮算法,適合于存儲和傳輸數據,但壓縮和解壓縮速度較慢。
LZ4:一種快速的壓縮/解壓縮算法,適合于實時數據處理,可以提供較高的壓縮速度和解壓縮速度。