亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

HDFS中DN存儲有什么用

發布時間:2021-12-09 14:28:33 來源:億速云 閱讀:235 作者:小新 欄目:大數據

這篇文章給大家分享的是有關HDFS中DN存儲有什么用的內容。小編覺得挺實用的,因此分享給大家做個參考,一起跟隨小編過來看看吧。

1、DN存儲

1、DN的作用:以塊的形式,來存儲真實數據,128M為切塊單位
切塊之后的數據分為2部分:
	--數據本身(即真實數據)
	--元數據(對數據塊的長度、校驗和、時間戳等描述信息)

2、DN中塊的存儲位置:/opt/module/hadoop-3.1.3/data/data/current/BP-1901013597-192.168.202.103-1600767106029/current/finalized/subdir0/subdir0

    -rw-rw-r--. 1 swk swk     60 9月  22 17:45 blk_1073741837	--數據本身
    -rw-rw-r--. 1 swk swk     11 9月  22 17:45 blk_1073741837_1013.meta  --元數據
    -rw-rw-r--. 1 swk swk    330 9月  22 17:49 blk_1073741839
    -rw-rw-r--. 1 swk swk     11 9月  22 17:49 blk_1073741839_1015.meta

2、工作機制

HDFS中DN存儲有什么用

1、當HDFS系統啟動成功之后,DN向NN進行注冊(內部發起通信),告知NN自身節點的位置和狀態
2、NN獲取到各DN的節點信息后,反饋給DN響應信息,表示注冊成功
3、之后,(Hadoop中設置)周期性(每隔1小時)就向NN上報一次當前節點內所有塊的信息
4、心跳每3秒一次,NN響應一次信息給DN,心跳內容(NN給DN的指令,比如cp,rm,ls等DN塊信息)
5、HDFS默認超時時間:NN如果超過10分鐘(10分30秒)沒有收到DN的上報,則NN認為該節點出現故障(不可用) 
   --可能存在網絡原因--看3

3、掉線時限參數設置

此段時間的計算公式是:
	timeout  = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval
	
hdfs-site.xml 		
	--默認的heartbeat.recheck-interval大小為5分鐘,dfs.heartbeat.interval默認的大小為3秒
<property>
  <name>dfs.heartbeat.interval</name>	--心跳時間3秒
  <value>3s</value>
</property>
<property>
  <name>dfs.namenode.heartbeat.recheck-interval</name>
  <value>300000</value>		--5分鐘
</property>

4、HDFS集群節點新增

--隨著公司業務的增長,數據量越來越大,原有的數據節點的容量已經不能滿足存儲數據的需求,需要在原有集群基礎上動態添加新的數據節點。
--注意:啟動新節點,不需要去配置群起群停workers文件,當需要將新增節點也可群起群停時,要去將新增節點添加到workers文件中,并分發
新節點克隆:
1、在Hadoop104主機上再克隆一臺Hadoop105主機
2、修改IP地址和主機名稱
	vim /etc/sysconfig/network-scripts/ifcfg-ens33
	vim /etc/hostname   --hadoop105
3、刪除hadoop105服務節點下的data和logs
	rm -rf /opt/module/hadoop-3.1.3/data  /opt/module/hadoop-3.1.3/logs
4、source配置文件
	source /etc/profile
5、啟動DataNode節點,直接關聯到集群
	hdfs --daemon start datanode    --web端可以看到新增節點直接加入集群
6、	yarn --daemon start nodemanager
7、如果數據不均衡,可以用命令實現集群的再平衡
	sbin/start-balancer.sh

5、HDFS集群節點退役

白名單:添加到白名單的主機節點,都允許訪問NameNode,不在白名單的主機節點,都會被直接退出
黑名單:添加到黑名單的主機節點,不允許訪問NameNode,會在數據遷移后退出
實際情況:
	--白名單用于確定允許訪問NameNode的DataNode節點,內容配置一般與workers文件內容一致。(工作中一定要配,防止黑客等)
	--黑名單用于在集群運行過程中退役DataNode節點。
具體配置:
1、在/opt/module/hadoop-3.1.3/etc/hadoop 目錄下,分別創建 whitelist 和 blacklist
	touch whitelist
	touch blacklist
2、在白名單(whitelist)中添加主機名稱 ,黑名單暫時為空
	hadoop102 hadoop103 hadoop104 
3、修改hdfs-site.xml文件
    <!--配置白名單-->
    <property>
 	<name>dfs.hosts</name>
    	<value>/opt/module/hadoop-3.1.3/etc/hadoop/whitelist</value>
    </property>
    <!--配置黑名單-->
    <property>
    	<name>dfs.hosts.exclude</name>
    	<value>/opt/module/hadoop-3.1.3/etc/hadoop/blacklist</value>
    </property>
4、分發hdfs-site.xml文件
	xsync hdfs-site.xml
5、重新啟動集群		--注意:新增節點hadoop105不在workers文件中配置,需要單獨啟動DN
	stop-dfs.sh
	start-dfs.sh
6、web端查看各DN節點	
黑名單退役:		--準備退役hadoop105
1、編輯blacklist文件,添加hadoop105
	vim blacklist 
	hadoop105
2、刷新NN
	hdfs dfsadmin -refreshNodes
3、在web端查看DN狀態,105正在退役中...進行數據的遷移
4、更新yarn狀態
	yarn rmadmin -refreshNodes
白名單退役:(一般不使用白名單退役)
白名單退役會直接將節點拋棄(會殺掉dn進程),沒有遷移數據的過程,會造成數據丟失
1、刪除blacklist的中的內容,恢復 102 103 104 105 正常工作
2、修改whitelist,將105刪除,保留102 103 104
3、刷新NameNode
4、web端查看,發現105節點直接從集群列表中丟棄

6、DN多目錄配置

DataNode也可以配置成多個目錄,每個目錄存儲的數據不一樣。即:數據不是副本
具體配置:
1、修改hdfs-site.xml
<property>
        <name>dfs.datanode.data.dir</name>
	<value>file:///${hadoop.tmp.dir}/data1,file:///${hadoop.tmp.dir}/data2</value>
</property>
2、停止集群,刪除data和logs中所有數據
	stop-dfs.sh
	刪除3個節點服務器下的data和logs目錄
	rm -rf data/ logs/
3、格式化啟動集群
	bin/hdfs namenode -format
	bin/start-dfs.sh
4、ll	查看結果

7、小文件存儲問題

我們知道HDFS對于小文件的處理存在弊端,多個小文件會嚴重消耗NN的內存,比如存儲一個1M的文件,實際是生成一個128M的塊進行存儲,但實際存儲是1M的數據大小。

解決方案:
hadoop引入Hadoop Archives(HAR files)
--HAR:更高效的文檔存儲工具
--將多個小文件打包成一個HAR文件,這樣在減少namenode內存使用的同時,仍然允許對文件進行透明的訪問。

具體案例演示:
--對一個目錄下的多個小文件進行歸檔操作
1、啟動yarn進程
	--start-yarn.sh
2、把/input目錄里面的所有文件歸檔成一個叫input.har的歸檔文件,并把歸檔后文件存儲到/output路徑下	
	--hadoop archive -archiveName input.har -p /input /output
3、查看歸檔
	--hadoop fs -lsr /output/input.har
	--hdfs dfs -lsr har:///output/input.har
4、解歸檔文件
	hadoop fs -cp har:///output/input.har/*    /

8、回收站

--開啟回收站功能,可以將刪除的文件在不超時的情況下,恢復原數據,起到防止誤刪除、備份等作用

回收站功能參數設置:
	a、默認值fs.trash.interval=0,0表示禁用回收站;其他值表示設置文件的存活時間。
	b、默認值fs.trash.checkpoint.interval=0,檢查回收站的間隔時間。如果該值為0,則該值設置和fs.trash
.interval的參數值相等。
	c、要求fs.trash.checkpoint.interval <= fs.trash.interval。

回收站具體設置步驟:
1、啟用回收站
	配置core-site.xml 配置垃圾回收時間為1分鐘
	<property>
   		<name>fs.trash.interval</name>
		<value>1</value>
	</property>
2、查看回收站
	回收站在集群中的路徑:.Trash/….
3、修改訪問垃圾回收站用戶名稱
	進入垃圾回收站用戶名稱,默認是dr.who,修改為luck用戶
	core-site.xml
	<property>
  		<name>hadoop.http.staticuser.user</name>
  		<value>luck</value>
	</property>
4、通過程序刪除的文件不會經過回收站,需要調用moveToTrash()才進入回收站
	Trash trash = New Trash(conf);
	trash.moveToTrash(path);
5、恢復回收站數據
	[luck@hadoop102 hadoop-3.1.3]$ hadoop fs -mv .Trash/Current/input    /input
6、清空回收站
	[luck@hadoop102 hadoop-3.1.3]$ hadoop fs -expunge
7、刪除數據不走回收站
	Hadoop fs -rm -skipTrash  /edits.xml

感謝各位的閱讀!關于“HDFS中DN存儲有什么用”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,讓大家可以學到更多知識,如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

都昌县| 冀州市| 昌黎县| 峨山| 徐汇区| 永顺县| 台东县| 顺平县| 东乌珠穆沁旗| 嘉义县| 乌鲁木齐县| 读书| 丘北县| 腾冲县| 大冶市| 芦溪县| 宁河县| 随州市| 通化县| 眉山市| 永昌县| 福鼎市| 当阳市| 开平市| 江口县| 北辰区| 芒康县| 龙州县| 陕西省| 苍梧县| 公主岭市| 会昌县| 桂阳县| 蕲春县| 红安县| 会同县| 德惠市| 合水县| 施秉县| 东台市| 闻喜县|