您好,登錄后才能下訂單哦!
問題現象:一套兩節點的RAC集群,其中節點2集群無法啟動,ohas進程已經啟動但CRS、CSS進程未啟動
1、首先查看
查看RAC中的alert日志,發現日志中一直在報如下報錯:
file rotation terminated. log file: "/app/11.2.0.4/grid/log/uatdb02/client/olsnodes.log"
從日志中可以看到提示說olsnodes.l03的owner不是oracle
查看后發現確實用戶屬主有屬組有問題
修改文件屬主和屬組
chown root:root olsnodes.l03
修改后olsnodes.log可以被正常切割,alert日志也不再報這個錯。但報錯也就停止。沒有日志如何繼續往下查?
2、檢查RAC的一些配置情況,由于對于RAC也只限于能夠根據文檔搭建成功,沒有太多問題處理經驗只能一邊查問題一邊查文檔和MOS。
先檢查RAC的ASM配置情況
發現與以往搭建的RAC查看disk path輸出的內容不同,于是想到是使用asmlib搭建的RAC,
rpm -qa |grpe asm發現確實安裝了相關包,說明推測方向正確
以前都是通過UDEV的方式配置RAC的ASM共享磁盤,asmlib的方式沒有用過。于是從網上找了相關的帖子查看,并找到一些命令。
oracleasm scandisks
oracleasm listdisks
但是知道這些命令還是沒有辦法解決問題。
嘗試執行上面的命令看看輸出結果
發現在scandisks時出現permission denied on OCR1的提示
于是感覺有了一個方向,是不是共享盤的權限訪問導致的呢
找到共享盤的目錄/dev/oracleasm/disks查看
節點2屬主和屬組都是root,如果是權限有問題,那正確的權限有又該是什么呢,好在節點1還在正常的跑著,查看節點1 的共享磁盤
從上面的查看來看,正常結點的屬主為grid,屬組為asmadmin,是不是由于這個原因導致集群無法啟動的呢?
嘗試手動修改節點2的屬主和屬組
這里漏掉了對權限做修改。。。
修改后嘗試重啟節點2的集群
crsctl start crs
報錯提示ohas已啟動,crs啟動失敗
仔細閱讀crsctl start使用說明才發現start crs是啟動OHAS的命令,start cluster 才是啟動CRS的命令。看來還是對RAC的了解不夠深入呀。。。
再次嘗試啟動節點2集群
提示cssd啟動失敗,從alert日志中也可以看到如下報錯
于是查看ocss.log
從ocss日志中輸出的報錯可以看出來是無法找到vote disk,集群自然是無法啟動的。
但是為什么找不到磁盤,原因還不知道。于是救助于MOS,但查了十幾篇有相關關鍵字的文檔,與這里的問題又不太相似。也沒有可用的解決辦法。
于是問題限入了僵局。
下班時間到了,第二天接著搞。
第二天登錄機器再次嘗試crsctl start cluster(明知沒有,但還是想試一下,僥幸心理。。)
果然沒有辜負我,依然報錯找不到vote disk。
查MOS文檔查到一些相關命令
crsctl query css votedisk
在節點2中無輸出內容,節點1有。
kfod status=TRUE asm_diskstring='/dev/oracleasm/disks/*' disks=ALL
節點1很快能返回
但節點2會hang住
而且可以看到節點2的共享盤,權限又變回root了,于是又再次手動修改,(心想也不能每次重啟機器都手動修改這個吧)。
再次執行上面的命令
出現有報錯。
突然想到是不是兩個節點的asmlib的配置不同導致的,由于對asmlib不熟悉,從網上帖子上看到的都是配置asmlib的,不知道如何查看配置
嘗試執行oracleasm configure,發現兩個節點的配置確認不一致
ORACLEASM_UID 和GID配置有問題
于是進行修改
查看狀態
修改完成,在scandisks時沒有提示permission denied,感覺應該沒有問題了
再次嘗試啟動crs
crsctl start cluster
啟動成功
至此集群問題解決。但從狀態來看這套RAC集群還是存在很多的問題。
總結:加深對RAC的理解,各組件的作用。各命令的含義。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。