如何使用hadoop archive合并小文件并進行mapreduce來減少map的數量

發布時間：2021-12-12 13:15:14 來源：億速云閱讀：307 作者：小新欄目：大數據

這篇文章給大家分享的是有關如何使用hadoop archive合并小文件并進行mapreduce來減少map的數量的內容。小編覺得挺實用的，因此分享給大家做個參考，一起跟隨小編過來看看吧。

如下：原始文件四個文件

經過hadoop archive之后：

執行的命令是：hadoop archive -archiveName words.har -p /words -r 1 /wordhar

生成的文件在/wordhar/words.har

如何使用hadoop archive合并小文件并進行mapreduce來減少map的數量

其中part-0是數據文件

在mapreduce中，會忽略以下劃線開頭的文件，也就是說上圖的_SUCCESS,_index,_masterindex是不會處理的

那么這樣一來就只會處理數據文件part-0

job設置的輸入路徑是

如何使用hadoop archive合并小文件并進行mapreduce來減少map的數量

運行mapreduce中執行的map數量是1

分片為一個

如何使用hadoop archive合并小文件并進行mapreduce來減少map的數量

map數量為一個

如何使用hadoop archive合并小文件并進行mapreduce來減少map的數量

課件通過hadoop archive的文件也可以進行mapreduce

感謝各位的閱讀！關于“如何使用hadoop archive合并小文件并進行mapreduce來減少map的數量”這篇文章就分享到這里了，希望以上內容可以對大家有一定的幫助，讓大家可以學到更多知識，如果覺得文章不錯，可以把它分享出去讓更多的人看到吧！

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看