您好,登錄后才能下訂單哦!
這篇文章主要講解了“Hadoop DataNode工作機制是怎樣的”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“Hadoop DataNode工作機制是怎樣的”吧!
DataNode上數據塊以文件形式存儲在磁盤上,包括兩個文件,一個是數據本身,一個是數據塊元數據包括長度、校驗、時間戳;
DataNode啟動后向NameNode服務注冊,并周期性的向NameNode上報所有的數據塊元數據信息;
DataNode與NameNode之間存在心跳機制,每3秒一次,返回結果帶有NameNode給該DataNode的執行命令,例如數據復制刪除等,如果超過10分鐘沒有收到DataNode的心跳,則認為該節點不可用。
通過hdfs-site.xml配置文件,修改超時時長和心跳,其中中的heartbeat.recheck.interval的單位為毫秒,dfs.heartbeat.interval的單位為秒。
<property> <name>dfs.namenode.heartbeat.recheck-interval</name> <value>600000</value> </property> <property> <name>dfs.heartbeat.interval</name> <value>6</value> </property>
當前機器的節點為hop01、hop02、hop03,在此基礎上新增節點hop04。
基本步驟
基于當前一個服務節點克隆得到hop04環境;
修改Centos7相關基礎配置,并刪除data和log文件;
啟動DataNode,即可關聯到集群;
該配置同步集群下服務,格式化啟動hdfs及yarn,上傳文件測試。
<property> <name>dfs.datanode.data.dir</name> <value>file:///${hadoop.tmp.dir}/dfs/data01,file:///${hadoop.tmp.dir}/dfs/data02</value> </property>
配置白名單,該配置分發到集群服務下;
[root@hop01 hadoop]# pwd /opt/hadoop2.7/etc/hadoop [root@hop01 hadoop]# vim dfs.hosts hop01 hop02 hop03
配置hdfs-site.xml,該配置分發到集群服務下;
<property> <name>dfs.hosts</name> <value>/opt/hadoop2.7/etc/hadoop/dfs.hosts</value> </property>
刷新NameNode
[root@hop01 hadoop2.7]# hdfs dfsadmin -refreshNodes
刷新ResourceManager
[root@hop01 hadoop2.7]# yarn rmadmin -refreshNodes
配置黑名單,該配置分發到集群服務下;
[root@hop01 hadoop]# pwd /opt/hadoop2.7/etc/hadoop [root@hop01 hadoop]# vim dfs.hosts.exclude hop04
配置hdfs-site.xml,該配置分發到集群服務下;
<property> <name>dfs.hosts.exclude</name> <value>/opt/hadoop2.7/etc/hadoop/dfs.hosts.exclude</value> </property>
刷新NameNode
[root@hop01 hadoop2.7]# hdfs dfsadmin -refreshNodes
刷新ResourceManager
[root@hop01 hadoop2.7]# yarn rmadmin -refreshNodes
HDFS存儲的特點,適合海量數據的大文件,如果每個文件都很小,會產生大量的元數據信息,占用過多的內存,并且在NaemNode和DataNode交互的時候變的緩慢。
HDFS可以對一些小的文件進行歸檔存儲,這里可以理解為壓縮存儲,即減少NameNode的消耗,也較少交互的負擔,同時還允許對歸檔的小文件訪問,提高整體的效率。
創建兩個目錄
# 存放小文件 [root@hop01 hadoop2.7]# hadoop fs -mkdir -p /hopdir/harinput # 存放歸檔文件 [root@hop01 hadoop2.7]# hadoop fs -mkdir -p /hopdir/haroutput
上傳測試文件
[root@hop01 hadoop2.7]# hadoop fs -moveFromLocal LICENSE.txt /hopdir/harinput [root@hop01 hadoop2.7]# hadoop fs -moveFromLocal README.txt /hopdir/harinput
歸檔操作
[root@hop01 hadoop2.7]# bin/hadoop archive -archiveName output.har -p /hopdir/harinput /hopdir/haroutput
查看歸檔文件
[root@hop01 hadoop2.7]# hadoop fs -lsr har:///hopdir/haroutput/output.har
這樣就可以把原來的那些小文件塊刪除即可。
解除歸檔文件
# 執行解除 [root@hop01 hadoop2.7]# hadoop fs -cp har:///hopdir/haroutput/output.har/* /hopdir/haroutput # 查看文件 [root@hop01 hadoop2.7]# hadoop fs -ls /hopdir/haroutput
如果開啟回收站功能,被刪除的文件在指定的時間內,可以執行恢復操作,防止數據被誤刪除情況。HDFS內部的具體實現就是在NameNode中啟動一個后臺線程Emptier,這個線程專門管理和監控系統回收站下面的文件,對于放進回收站的文件且超過生命周期,就會自動刪除。
該配置需要同步到集群下的所有服務;
[root@hop01 hadoop]# vim /opt/hadoop2.7/etc/hadoop/core-site.xml # 添加內容 <property> <name>fs.trash.interval</name> <value>1</value> </property>
fs.trash.interval=0,表示禁用回收站機制,=1表示開啟。
感謝各位的閱讀,以上就是“Hadoop DataNode工作機制是怎樣的”的內容了,經過本文的學習后,相信大家對Hadoop DataNode工作機制是怎樣的這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。