您好,登錄后才能下訂單哦!
Kubernetes是Google開源的一個容器編排引擎,它支持自動化部署、大規模可伸縮、應用容器化管理。伴隨著云原生技術的迅速崛起,如今Kubernetes 事實上已經成為應用容器化平臺的標準,越來越受到企業的青睞,在生產中也應用的也越來越廣泛。
我們的容器平臺建設從2016年開始,大致經歷了探索預研、體系建設和平臺落地這樣三個階段。
下面就從Kubernetes的網絡、存儲、集群管理和監控與運維幾個方面來分享下我們容器云平臺建設走過的歷程,希望給大家一些思考和啟發。
一、 kubernetes網絡
容器網絡發展到現在,已經是雙雄會的格局。雙雄會其實指的就是Docker的CNM和Google、CoreOS、Kuberenetes主導的CNI。首先明確一點,CNM和CNI并不是網絡實現,他們是網絡規范和網絡體系,從研發的角度他們就是一堆接口,你底層是用Flannel也好、用Calico也好,他們并不關心,CNM和CNI關心的是網絡管理的問題。
網絡需求調研發現,業務部門主要關注以下幾點:1、容器網絡與物理網絡打通2、速度越快越好3、改動越少越好4、盡可能少的風險點。
容器的網絡方案大體可分為協議棧層級、穿越形態、隔離方式這三種形式
協議棧層級:二層比較好理解,在以前傳統的機房或虛擬化場景中比較常見,就是基于橋接的 ARP+MAC 學習,它最大的缺陷是廣播。因為二層的廣播,會限制節點的量級;三層(純路由轉發),協議棧三層一般基于 BGP,自主學習整個機房的路由狀態。它最大的優點是它的 IP 穿透性,也就是說只要是基于這個 IP 的網絡,那此網絡就可以去穿越。顯而易見,它的規模是非常有優勢,且具有良好的量級擴展性。但在實際部署過程中,因為企業的網絡大多受控。比如,有的企業網絡的 BGP 是基于安全考慮不給開發者用或者說企業網絡本身不是 BGP,那這種情況下你就受限了;協議棧二層加三層,它的優點是能夠解決純二層的規模性擴展問題,又能解決純三層的各種限制問題,特別是在云化 VPC 場景下,可以利用 VPC 的跨節點三層轉發能力。
穿越形態:
這個與實際部署環境十分相關。穿越形態分為兩種:Underlay、Overlay。
Underlay:在一個較好的可控的網絡場景下,我們一般利用 Underlay。可以這樣通俗的理解,無論下面是裸機還是虛擬機,只要整個網絡可控,容器的網絡便可直接穿過去 ,這就是 Underlay。
Overlay:Overlay 在云化場景比較常見。Overlay 下面是受控的 VPC 網絡,當出現不屬于 VPC 管轄范圍中的 IP 或者 MAC,VPC 將不允許此 IP/MAC 穿越。出現這種情況時,我們可利用 Overlay 方式來做。
Overlay網絡使物理網絡虛擬化、資源池化,是實現云網融合的關鍵。把Overlay網絡和SDN技術結合使用,把SDN控制器作為Overlay網絡控制平面的控制器,這種方式更容易使網絡與計算組件整合,是網絡向云平臺服務轉變的理想選擇。
隔離方式:
隔離方式通常分為VLAN和VXLAN 兩種:
VLAN:VLAN 機房中使用偏多,但實際上存在一個問題。就是它總的租戶數量受限。眾所周知,VLAN 具有數量限制。
VXLAN:VXLAN 是現今較為主流的一種隔離方式。因為它的規模性較好較大,且它基于 IP 穿越方式較好。
我們從協議層級、穿越形態和隔離方式對kubernetes幾個常見的網絡組件(calico、contiv、flannel、Openshift SDN、自定義路由)在傳統機房網絡以及云化VPC網絡應用場景下做一個分析,用連線圖來表述它們之前的關系。
首先無論是傳統機房網絡還是云化 VPC 網絡,我們可以看到 Overlay 方案是通用的,它在云化場景里可能用的更多一些,因為它有很好的穿越性。
在上圖中,紅線實線指向傳統機房網絡,這里重點說明下。Underlay + 三層的方案,是傳統機房網絡非常流行的方案,同時它的性能非常可觀,場景應用比較偏多。
綠色虛線指向云化VPC網絡, Underlay+三層網絡在云化 VPC 場景下,也是可以受限使用。受限使用顧名思義,可以使用但不是每個供應商都讓你用,因為每一個云廠商對他自己網絡保護的定義不一樣。比如像 Calico 方案,它的 BGP 在 AWS 中就容易做,但在 Azure 中就不允許,因為 Azure 的 VPC 本身是不允許不受它管控范圍的 IP 通過。
黃顏色的實線指向云化VPC網絡,Overlay+二層或三層在云化場景中比較常見。Overlay 下面是受控的 VPC 網絡,管控會比較方便。
當然云化VPC場景下也存在一些問題,如下圖所示。
接下來說一下多租戶之間的網絡隔離問題
K8s從1.3版引入網絡策略機制,通過網絡策略可實現POD之間的入站和出站訪問策略。
網絡策略可應用于通過常用標簽標識的pod組,然后使用標簽來模擬傳統的分段網絡,可以通過特定的“段”標簽來標識前端和后端pod。策略控制這些段之間的流量,甚至控制來自外部源的流量。但并非所有的網絡后端都支持策略,比如 flannel。現在很多廠商在這方面加強了研究,也有很多新的解決方案,就不一一列舉了。
還有就是集群邊界Ingress的管理
Ingress 是在kubernetes 1.2版本才出現的,容器應用默認以Service的形式提供服務,但Service僅作用于集群內部,通過Ingress將Service暴露出去才能為集群外的客戶端提供服務。
下面對常見的Ingress Controller做一個對比,見下表
我們看到Nginx在性能和功能適用面上,還有社區活躍度上都較好,實用中也較多。
二、 kubernetes的存儲
k8s最初用于管理無狀態的服務,但隨著越來越多的應用遷移到k8s平臺,管理存儲資源成為一個非常重要的功能。
Kubernetes中對于存儲的使用主要集中在以下幾個方面:
服務的基本配置文件讀取、密碼密鑰管理等;服務的存儲狀態、數據存取等;不同服務或應用程序間共享數據。大致有以下幾個場景,如圖:
Kubernete存儲在設計的時候遵循著Kubernetes的一貫哲學,即聲明式(Declarative)架構。同時為了盡可能多地兼容各種存儲平臺,Kubernetes以in-tree plugin的形式來對接不同的存儲系統,滿足用戶可以根據自己業務的需要使用這些插件給容器提供存儲服務。同時兼容用戶使用FlexVolume和CSI定制化插件。相比較于Docker Volume,支持的存儲功能更加豐富和多樣。
Kubernete存儲插件解析:
1、in-tree plugin:存儲代碼與K8S緊密集成,耦合性太強
2、FlexVolume:存儲插件安裝在宿主機上,需要宿主機的root權限
3、CSI規范:將存儲代碼與K8S完全解耦(1.10版本及以上,使用CSI attacher使用0.2.0版本)
csi規范極大地方便了插件的開發、維護和集成,具有很好的發展前景。
Kubernetes使用兩種資源管理存儲:
PersistentVolume(簡稱PV):由管理員添加的的一個存儲的描述,是一個全局資源,包含存儲的類型,存儲的大小和訪問模式等。它的生命周期獨立于Pod,例如當使用它的Pod銷毀時對PV沒有影響。
PersistentVolumeClaim(簡稱PVC):是Namespace里的資源,描述對PV的一個請求。請求信息包含存儲大小,訪問模式等。
PV可以看作可用的存儲資源,PVC則是對存儲資源的需求,PVC會根據Pod的要求去自動綁定合適的PV給Pod使用。PV和PVC的相互關系遵循下圖所示的生命周期。
PV模式有靜態和動態,靜態PV模式管理NFS、FC、ISCSI,動態PV模式管理glusterfs、Cinder、Ceph RBD、Vsphere、ScaleIO、AWS、Azure等。靜態的需要管理員創建和管理PV,而動態的則由系統自動生成PV并綁定PVC.
下面再簡單補充下kubernetes中的鏡像管理,生產中都會有很多不同版本不同應用的鏡像,對鏡像的管理也是比較重要的環節。
鏡像的多租戶權限管理:
1、不同租戶的鏡像應相互隔離
2、不同的租戶對鏡像擁有不同的權限,例如讀寫、只讀、上傳、下載權限
3、鏡像庫提供鏡像的查詢、更新和刪除等功能
對于跨地域多數據中心的鏡像管理,鏡像庫的遠程復制管理需要注意:
1、在多數據中心或跨地域多站點的環境下,為了提高多地區鏡像的下載效率,至少需要兩級鏡像庫的設置:總鏡像庫和子鏡像庫
2、鏡像庫之間的準實時增量同步
三、 Kubernetes集群管理
在生產系統中,kubernetes多集群的管理主要涉及:
1、服務運維
2、集中配置
3、擴容升級
4、資源配額
首先說說多集群的調度管理
1、Kubernetes中的調度策略可以大致分為兩種,一種是全局的調度策略,另一種是運行時調度策略
2、NODE的隔離與恢復;NODE的擴容;Pod動態擴容和縮放
3、親和性可以實現就近部署,增強網絡能力實現通信上的就近路由,減少網絡的損耗。反親和性主要是出于高可靠性考慮,盡量分散實例。
4、 微服務依賴,定義啟動順序
5、跨部門應用不混部
6、api網關以及GPU節點應用獨占
多集群管理中的應用彈性伸縮管理:
1、手工擴縮容:預先知道業務量的變化情況
2、基于CPU使用率的自動擴縮容:v1.1版引入控制器HPA,POD必須設置CPU資源使用率請求
3、基于自定義業務指標的自動擴縮容:v1.7版對HPA重新設計,增加了組件,被稱為HPA v2
在實際應用中,HPA還有很多不完善的地方,很多廠商都用自己的監控體系來實現對業務指標的監控并實現自動擴容
Kubernetes多集群的調優:
主要有三個難點:
第一是如何分配資源,當用戶選擇多集群部署后,系統根據每個集群的資源用量,決定每個集群分配的容器數量,并且保證每個集群至少有一個容器。集群自動伸縮時,也會按照此比例創建和回收容器。
第二是故障遷移,集群控制器主要是為了解決多集群的自動伸縮和集群故障時的容器遷移,控制器定時檢測集群的多個節點,如果多次失敗后將觸發集群容器遷移的操作,保障服務可靠運行。
第三是網絡和存儲的互連,由于跨機房的網絡需要互連,我們采用vxlan的網絡方案實現,存儲也是通過專線互連。容器的鏡像倉庫采用Harbor,多集群之間設置同步策略,并且在每個集群都設置各自的域名解析,分別解析到不同的鏡像倉庫。
接下來說說K8S集群的Master節點高可用實現,我們知道Kubernetes集群的核心是其master node,但目前默認情況下master node只有一個,一旦master node出現問題,Kubernetes集群將陷入“癱瘓”,對集群的管理、Pod的調度等均將無法實施。所以后面出現了一主多從的架構,包括master node、etcd等都可設計高可用的架構。
還有了解下Federation 集群聯邦架構
在云計算環境中,服務的作用距離范圍從近到遠一般可以有:同主機(Host,Node)、跨主機同可用區(Available Zone)、跨可用區同地區(Region)、跨地區同服務商(Cloud Service Provider)、跨云平臺。K8s的設計定位是單一集群在同一個地域內,因為同一個地區的網絡性能才能滿足K8s的調度和計算存儲連接要求。而集群聯邦(Federation)就是為提供跨Region跨服務商K8s集群服務而設計的,實現業務高可用。
Federation 在1.3版引入,集群聯邦federation/v1beta1 API擴展基于DNS服務發現的功能。利用DNS,讓POD可以跨集群、透明的解析服務。
1.6版支持級聯刪除聯邦資源,1.8版宣稱支持5000節點集群,集群聯邦V2
目前存在的問題:
1、網絡帶寬和成本的增加
2、削弱了多集群之間的隔離性
3、成熟度不足,在生產中還沒有正式的應用
四、kubernetes的監控與運維
對于一個監控系統而言,常見的監控維度包括:資源監控和應用監控。資源監控是指節點、應用的資源使用情況,在容器場景中就延伸為節點的資源利用率、集群的資源利用率、Pod的資源利用率等。應用監控指的是應用內部指標的監控,例如我們會將應用在線人數進行實時統計,并通過端口進行暴露來實現應用業務級別的監控與告警。那么在Kubernetes中,監控對象會細化為哪些實體呢?
系統組件
kubernetes集群中內置的組件,包括apiserver、controller-manager、etcd等等。
靜態資源實體
主要指節點的資源狀態、內核事件等等
動態資源實體
主要指Kubernetes中抽象工作負載的實體,例如Deployment、DaemonSet、Pod等等。
自定義應用
主要指需要應用內部需要定制化的監控數據以及監控指標。
不同容器云監控方案的對比:
關于Prometheus監控:
主要注意兩點:
? 查詢api的封裝
? 配置文件的下發
有了prometheus這個強大的監控開源系統之后,我們所需要投入的工作就是查詢api的封裝和配置文件的下發。查詢api的封裝沒什么好說的,無非就是前端調用我們自己的server,我們的server呢通過http協議去調用prometheus的api接口查詢到原始數據,然后進行組裝,最后返回給前端。 配置文件的話包含三部分吧,警報的定義,alertmanager的配置,以及prometheus的配置,這里也不好展開講,有興趣的可以去官網看看。當然也可以使用Prometheus+Grafana來搭建監控系統,這樣可視化會更豐富些,展現也比較快。
運維的思考---開發與運維的一體化
運維的思考---高可用問題
? Ocp平臺:
1、負載均衡Router高可用集群: 2個節點
2、EFK高可用集群: 3個ES節點+n個F節點
3、鏡像倉庫高可用集群: 2個鏡像倉庫
? 微服務架構:
1、注冊中心高可用集群(Eureka): 3個
2、配置中心高可用集群: 3個
3、網關高可用集群: 2個
4、關鍵微服務均是高可用集群
運維的思考---高并發問題
? Ocp平臺:
1、對后端微服務(Pod)配置彈性擴容, K8的彈性伸縮擴容以及Docker容器的秒級啟動可以支撐用戶量的持續增長;
2、提前預留20%的資源, 當高并發情況發生時, 可以緊急擴充資源。
? 微服務架構:
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。