怎么通過Openshift實現K8S容災

發布時間：2021-08-17 10:00:12 來源：億速云閱讀：137 作者：chen 欄目：開發技術

這篇文章主要講解了“怎么通過Openshift實現K8S容災”，文中的講解內容簡單清晰，易于學習與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學習“怎么通過Openshift實現K8S容災”吧！

如何通過Red Hat Openshift實現K8S容災?

越來越多的K8S應用采用RedHat OpenShift進行部署，IT團隊需要部署容災功能，來防范系統崩潰導致業務受損。一部分行業通常有較強的監管要求，在出現大規模錯誤的時候必須有數據保護。例如HIPAA 監管要求中的CFR 164.308(7)(ii)(B)，要求公司必須能夠在出現系統錯誤的時候“恢復所有數據”。這種情況下對于Openshift上的關鍵應用來說，容災是必須的。

本文講解了用戶如何使用OpenShift和Portworx來實現零RPO的容災。Portworx是Redhad容器目錄認證的廠商，在OperaterHub上也有經過認證的Operator。能夠為Red Hat客戶提供完整的OpenShift體驗。在我們進入如何在OpenShift上達到零RPO容災之前，讓我們首先來分析一下，傳統的容災方案為什么不適用于K8S。

傳統的備份和恢復方案是在虛擬機（VM）層面來實現的。如果一個單一應用運行在單一虛擬機上，這種方案很合適。因為備份虛擬機和備份應用一樣的。而運行在OpenShift上的容器化應用，卻很不一樣。一個虛擬機通常可以運行多個Pods，但不是所有的這些Pods都是為一個應用服務的。同樣，一個應用也可能跨越多個虛擬機。容器化應用的通常架構模式中應用是分布在一組服務器集群上的。所以僅僅備份虛擬機就不合適了。要么過多備份了無用的內容，要么沒有備份關鍵的應用數據。例如我想備份應用A，備份虛擬機的過程中，也會備份包括應用B和應用C的數據，這就會導致過多的備份。如果我備份了整個VM，而應用A運行在其他VM上的部分就沒有被有效的備份，這就導致沒有備份關鍵的應用數據。

為了解決這個問題，Openshift上的容災需要的解決方案應是：

容器顆粒度的
Kubernetes命名空間可感知的
應用一致的
能夠備份數據和應用配置
能夠為數據中心提供同步和異步備份的不同方式

Portworx企業版數據平臺的PX-DR就是按照以上的原則設計的。

容器顆粒度的Openshift容災

PX-DR是一個容器顆粒度的DR方案。它不是去備份VM或者物理機上的所有數據，而是備份運行在主機上的特定的Pod，或者備份一組Pod。在下面的圖中，我們看到一個3節點的OpenShift集群、一個三節點的Cassandra環，和三個單獨節點的PostgreSQL數據庫。

通過PX-DR我們可以去備份我們想要備份的特定Pods。例如，我們想備份3節點的Cassandra環，或者想備份一個單獨的PostgreSQL數據庫。通過提供容器顆粒度的備份，我們避免了在備份所有VM過程中復雜的數據提取，轉化和加載（ETL）過程。通過僅僅備份單獨的應用，我們可以大量節省存儲成本，以及保持很低的RTO。

對整個Kubernetes命名空間的容災

具備容器顆粒度的備份代表我們也可以對整個命名空間進行備份。Kubernetes上的命名空間，通常可以運行有關聯的一組應用。例如，某企業的一個命名空間代表了該企業的一個分支機構的所有應用。通常在備份命名空間的時候，我們會備份整個命名空間，而不是僅備份命名空間里的某一個應用。傳統的備份方案是無法對命名空間進行備份的，因為命名空間是跨VM邊界的。PX-DR，可以備份整個命名空間，不論與這個命名空間關聯的Pods在哪里。

對 OpenShift備份過程中保持應用的一致性

PX-DR可以保持應用的一致性。如上面的例子，3個Cassandr pods是一個分布式系統。通過對它們進行快照的過程中，如果需要支持應用在無數據損失的情況下恢復，就需要在快照過程中保持所有的Pods被鎖定。對VM進行快照無法鎖定所有Pods。而進行系列快照也不能達到。Portworx提供了Kubernetes組快照規則引擎，允許Operators自動的執行前置和后置快照命令。例如對Cassandra，我們必須運行nodetool flush命令來達到對多個Cassandra容器快照過程中保持應用的一致性。

apiVersion: stork.libopenstorage.org/v1alpha1
kind: Rule
metadata:
name: cassandra-presnap-rule
spec:
– podSelector:
app: cassandra
actions:
– type: command
value: nodetool flush

為Openshift應用備份數據和應用配置

我們已經敘述了容器顆粒度備份、命名空間感知、應用一致性備份的重要性。現在我們來看一下為什么OpenShift的DR要求能夠備份數據和應用配置。在OpenShift上備份和恢復一個應用需要兩件事情：數據、和應用配置。如果我們僅僅備份數據，恢復應用的時間會非常長，因為我們需要重建應用配置，會增加RTO。如果我們僅僅備份應用的配置 – 所有的Yaml文件（定義了應用的部署、服務賬戶、PVCs等），但我們卻沒有應用數據。因此我們需要同時備份應用數據和應用配置。PX-DR可以通過一個OpenShift命令備份應用數據和應用配置。恢復OpenShift應用的時候使用 `oc -f apply myapp.yml` 命令，因為恢復應用的過程與最初部署應用過程是一樣的。

怎么通過Openshift實現K8S容災

對Openshift的同步或異步DR

針對我們的目標和數據中心的不同架構，我們可以選擇正確的OpenShift容災策略。我們可以選擇同步或者異步的備份模式。在一些情況下，也可以同時選取同步和異步備份，因為同步和異步提供了不同層級的系統保護。

例如，一個銀行有本地部署的數據中心，并且通過專線連接到了一個AWS數據中心，可能會需要為一個重要商業應用選擇零RPO的DR策略，同時要求RTO<1分鐘。在這種情況下，我們傾向于推薦同步備份的PX-DR，由于兩個環境的延時極低，因此可以提供零數據損失的恢復。

另一個例子，如果一個制造業的公司在較遠的兩地有兩個數據中心，應用要求較低的RTO，但按每小時的備份頻率對于RPO的目標來說已經足夠了，在這種情況下，異步備份的PX-DR，使用連續增量式的備份就已經足夠。

怎么通過Openshift實現K8S容災

下面是不同情況下OpenShift DR策略的選擇

較遠網絡的OpenShift容災策略(兩個站點之間的往返延遲 >10毫秒的情況)

怎么通過Openshift實現K8S容災

近距離網絡的OpenShift的容災策略（兩個站點之間的往返延遲 < 10毫秒的情況）怎么通過Openshift實現K8S容災

如何在OpenShift上通過PX-DR實現零RPO的DR

PX-DR支持在OpenShift上的同步和異步容災，下面我們來關注下零RPO的同步容災。我們先看一下通過Portworx和OpenShift同步容災的相關概念和配置，包括初始setup和模擬出一個系統錯誤。一個單獨的Portworx數據管理層橫跨多個站點，如上圖所示，同步PX-DR使用位于多個OpenShift集群下的、一個單獨的Portworx數據管理層。這會在每一個OpenShift站點上提供永遠可用的數據復制。一個單獨的數據管理層意味著：有兩個Portworx集群域，其中總有一個Portworx集群是可用的。

通過集群域，Portworx數據管理層來區分主站點和容災站點。集群域在Portworx集群被安裝的時候就會配置完成。在每一個OpenShift集群上（主集群或DR集群）配置Portworx來包括同一個Key-value的存儲端點和集群名稱，但使用不同的集群域來區分主站點和DR站點，看下面的例子。

Primary DR Site args: [“-k”, “etcd:http://etcd:2379”, “-c”, “px-cluster-synchronous”, “-s”, “type=gp2,size=250”, “-secret_type”, “k8s”, “-cluster_domain”, “primary” “-x”, “kubernetes”] “` args: [“-k”, “etcd:http://etcd:2379”, “-c”, “px-cluster-synchronous”, “-s”, “type=gp2,size=250”, “-secret_type”, “k8s”, “-cluster_domain”, “dr-site” “-x”, “kubernetes”]

低延時要求

同步PX-DR需要很低的延時。因為每一個寫入操作都會被同步的復制到容災站點上，如果延時較高，應用的性能就會受到很大影響。這也是為什么在這樣的架構中，卷必須設定復制因子在2以上。到DR站點的往返延遲不能夠超過10毫秒，甚至有一些應用要求的延時比10毫秒還要低。當設計應用時，同時需要思考DR的架構和延時的要求。可以在兩個站點間使用Ping來測試延時。測試延時可以返回最小、最大和平均延時以及分布。

$ ping ip-10-0-131-167 PING (10.0.131.167) 56(84) bytes of data. 64 bytes from (10.0.131.167): icmp_seq=1 ttl=255 time=0.019 ms 64 bytes from (10.0.131.167): icmp_seq=2 ttl=255 time=0.028 ms 64 bytes from (10.0.131.167): icmp_seq=3 ttl=255 time=0.035 ms 64 bytes from (10.0.131.167): icmp_seq=4 ttl=255 time=0.029 ms 64 bytes from (10.0.131.167): icmp_seq=5 ttl=255 time=0.028 ms ^C — ip-10-0-131-167.us-west-2.compute.internal ping statistics — 5 packets transmitted, 5 received, 0% packet loss, time 4080ms rtt min/avg/max/mdev = 0.019/0.027/0.035/0.008 ms

Setup Openshift集群配對

一旦完成兩個站點都在運行Portworx，在正確的集群域設定基礎上，它們就可以正常的來Sync了。我們可以通過Portworx命令 “` $ pxctl cluster domains show “` 來進行驗證。驗證完成后，并且兩個集群域都是正常的情況下，就可以創建集群配對對象。這樣兩個站點就可以共享一個OpenShift應用YAML文件。這些YAML文件代表了應用的配置，對于在出問題時保證低RTO有著重要的作用。首先為目標命名空間產生集群配對，然后把YAML文件應用到主站點上。

$ storkctl generate clusterpair -n appns dr-site > dr-site.yaml
$ oc create -f dr-site.yaml

可以通過下面的命令來驗證集群配對。

$ storkctl get clusterdomainsstatus

創建一個調度和遷移

取決于你的組織的RTO要求，你可以選擇應用的sync頻率。通過創建一個策略來定義調度，然后把調度和應用的遷移關聯起來。

首先，創建一個調度，下面的例子中在每一分鐘遷移應用配置。把它保存成一個Yaml文件，然后使用`oc create -f` 來創建策略。

apiVersion: stork.libopenstorage.org/v1alpha1
kind: SchedulePolicy
metadata:
name: sched-policy
namespace: appns
policy:
interval:
intervalMinutes: 1
daily:
time: “10:14PM”
weekly:
day: “Thursday”
time: “10:13PM”
monthly:
date: 14
time: “8:05PM”

接下來，創建一個遷移：針對 “appns”命名空間、“dr-site”集群配對、和使用這個調度。注意文件最下方的“schedulePolicyName”。存成一個yaml文件，然后通過` oc create -f` 來應用它。

apiVersion: stork.libopenstorage.org/v1alpha1
kind: MigrationSchedule
metadata:
name: migrationschedule
namespace: appns
spec:
template:
spec:
clusterPair: dr-site
includeResources: true
startApplications: false
includeVolumes: false
namespaces:
– demo
schedulePolicyName: sched-policy

注意以上僅僅設定includeResources是true，而設定其他的都是false，因為同步DR集群已經在兩個集群上都配置了數據，因此我們不再需要include卷，并且直到有系統錯誤發生前，我們也不想啟動這個應用。如果我們使用異步PX-DR方式，我們需要把`includeVolumes` 改為true。

你可以通過運行下面的命令來驗證遷移是否已經完成。

$ storkctl get migration

通過OpenShift DR站點來恢復

現在OpenShift集群都已經sync完成，應用也sync完成。我們準備好來恢復應用了。當一個主站點的災難發生后，下面的步驟即可在DR站點上恢復，并且是零RPO。

首先，關閉主站點，等待域變成 (NotInSync)

$ storkctl deactivate clusterdomain ocs-primary
$ storkctl get clusterdomainsstatus

接下來，如果你有權限訪問主站點，把復制集變成0。如果你沒有權限訪問主站點，直接走到下一步，在容災站點上恢復應用。

$ oc scale deploy -n demo –replicas=0 –all

通過向遷移調度增加 `suspend:true` ，并且更新spec，可以暫停遷移

apiVersion: stork.libopenstorage.org/v1alpha1
kind: MigrationSchedule
metadata:
name: migrationschedule
namespace: appns
spec:
template:
spec:
clusterPair: dr-site
includeResources: true
startApplications: false
includeVolumes: false
namespaces:
– demo
schedulePolicyName: sched-policy
suspend: true

$oc apply -f migration-schedule.yaml

最后，在DR站點上，啟動遷移，打開DR站點上的Pods。

$ storkctl activate migration -n appns

你的“appns”命名空間里的應用現在已經在OpenShift DR站點上重啟了，并且是0數據損失。

PX-DR包括一個API可以自動化的實現上面的步驟，另外，當主站點又重新啟動后，應用的配置和數據會重新被sync，這樣就可以重新在主站點上啟動應用。

感謝各位的閱讀，以上就是“怎么通過Openshift實現K8S容災”的內容了，經過本文的學習后，相信大家對怎么通過Openshift實現K8S容災這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是億速云，小編將為大家推送更多相關知識點的文章，歡迎關注！

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

怎么通過Openshift實現K8S容災

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

怎么通過Openshift實現K8S容災

猜你喜歡

最新資訊

相關推薦

相關標簽