Exadata cellnode RS-7445 [Serv CELLSRV hang detected] [It will be restarted] sorununun çözümü

Exadata cellnode’lar üzerinde aşırı yük altında heartbeat gönderememesine bağlı olarak RS-7445 şeklinde hata alınabilmektedir. Bu hata Oracle Exadata Storage Server yazılımının 11.2.2.4.0 ve 11.2.3.2.1 arasındaki sürümlerinde görülmektedir.

Hata sonucunda CELLSRV servisi RS tarafından yeniden başlatılmaktadır. Cellnode aler.log incelendiğinde aşağıdaki gibi hatalar görülecektir.

/opt/oracle/cell11.2.3.1.1_LINUX.X64_120607/log/diag/asm/cell/<cellnode_hostname>/trace/alert.log :

State dump signal delivered to Cellsrv<9971>
State dump signal delivered to Cellsrv<9971> by RS.
Mon Jan 2 16:38:24 2017
State dump interrupted for Cellsrv<9971> by RS. It did not complete in 5 seconds.
[RS] Stopped Service CELLSRV
Errors in file /opt/oracle/cell11.2.3.1.1_LINUX.X64_120607/log/diag/asm/cell/sba4cel07/trace/rstrc_9957_4.trc (incident=17):
RS-7445 [Serv CELLSRV hang detected] [It will be restarted] [] [] [] [] [] [] [] [] [] []
Incident details in: /opt/oracle/cell11.2.3.1.1_LINUX.X64_120607/log/diag/asm/cell/sba4cel07/incident/incdir_17/rstrc_9957_4_i17.trc
Sweep [inc][17]: completed
[RS] Detected service hang. Increasing heartbeat timeout to 8 seconds.
[RS] Started monitoring process /opt/oracle/cell11.2.3.1.1_LINUX.X64_120607/cellsrv/bin/cellrsomt with pid 3109
Mon Jan 02 17:38:25 2017
Successfully setting event parameter - 
Mon Jan 02 17:38:25 2017
Successfully setting event parameter - 
CELLSRV process id=3110
CELLSRV cell host name=sba4cel07.saglik.lokal
CELLSRV version=11.2.3.1.1,label=OSS_11.2.3.1.1_LINUX.X64_120607,Fri_Jun__8_12:49:44_PDT_2012
OS Hugepage status: 
Total/free hugepages available=4001/81; hugepage size=2048KB
OS Stats: Physical memory: 23955 MB. Num cores: 24

Bu sorunun tekrarlamaması için RS ve CELLSRV arasındaki heartbeat timeout süresinin arttırılması gerekmektedir. Varsalına olarak heartbeat değeri 6 saniyedir. Bu değeri aşağıdaki adımları takip ederek yükseltebilirsiniz.

root ile ;

$OSSCONF/cellinit.ora dosyasına aşağıdaki satır eklenerek servisler yeniden başlatılır.

_cellrsdef_heartbeat_timeout=10
[root@oradbcel01 ~]# cellcli
CellCLI: Release 11.2.3.1.1 - Production on Mon Jan 02 21:21:35 EET 2017

Copyright (c) 2007, 2011, Oracle. All rights reserved.
Cell Efficiency Ratio: 488

CellCLI> alter cell RESTART SERVICES RS

 

Loading

Leave Your Comment