2013年12月21日土曜日

サーバー接続のRAIDディスクが故障!

名古屋の自習室、レンタルオフィス@Spaceアッットスペースの店長 中井和博です。

さて、弊社のサーバーには外部ディスクとしてRAIDディスクをSATA接続しております。

このディスクは、LaCie 2big Dualです。

障害内容としてはサーバー側からのアクセスが不能となりました。
完全なるディスクダウン

この右の機器を正面から見ると、中央上部のLEDランプが、普段はブルー点灯なのですが今は赤く点滅中!

まるで、ウルトラマンのカラータイマーが点滅しているような状態、後三分すると地球上で戦えなくなってしまいそう!
これ、判る人少ないでしょうね・・・・・・

まず考えました。なぜ!
この機器は、ディスクをRAID1でフルミラー化しています。
つまり、
ディスクを2重化しており、どちらかのディスクに障害が発生しても、もう一台のディスクが有るので問題なくアクセスが続行できるはず!
障害時でも続行できるようにRAID化したのに、
一発でダウン!

原因が判らない!

サーバー側のログを見ました。
------------------引用----------------------------
・遅延書き込みデータの紛失} ファイル  のためのデータを一部保存できませんでした。データを損失しました。 このエラーは、コンピュータのハードウェアまたはネットワーク接続の障害によって発生した可能性があります。このファイルをどこか別の所に保存してください。
・Logical Disk Manager Administrative Service サービスは、停止 状態に入りました。
・Virtual Disk Service サービスは、停止 状態に入りました。
---------------------------------------------------

ディスク障害の原因は不明、だがシステムから切り離されてようです。

早速対策を開始。

【対策1】
当該RAID機器の電源OFF/ON実行。
でも、結果は同じで前面のLEDが赤く点滅

ここで、少し冷静になると、微かな異音がサーバールームからします。
探すと、
このRAID機器の電源アダプターから「ピー!」と微かな音がします。
この電源は、ACからDC12Vに変換するアダプターのはず、
だから、内部にはコンデンサーやダイオードなどの電子機器が有るだけのはずです。
駆動軸などの動きのあるものが無いのに音がするのはおかしい・・・。

えー!まさかRAIDディスクの電源アダプター障害で、RAIDダウンなのかと、仮定。
テスターで当該電源アダプタのDC電圧を計測、電圧が8Vに低下しています。
本来は12Vあるはずなのに、これは電源アダプター故障と断定

【対策2】
電源アダプターの交換、
自宅の保管庫からDC12の別アダプターを持参し、翌朝変更。

そして、電源ON!
結果は、前回と異なる。
起動後、全面パネルのLEDがブルーに点灯!
30秒後に、
またLEDが赤く点灯!

だめか、・・・・と慌てて、RAID電源をOFF。

しばらく、考えるが。
今回は一度LEDがブルーに点灯したので前回の障害とは違い。
冷静になり、メーカーの取扱説明書を読みました。

げ!。
なんと、LEDがブルー点灯に戻った後の赤いLED点滅はRAIDディスクのデータ復元ロジックが走っていたようでした。
復旧活動中に、ダメだと勝手に判断して電源を切ってしまいました。すいません

理由が判れば一安心!
もう一度電源ON⇒LEDがブルー点灯⇒LEDが赤く点灯開始。
ここで、このRAIDディスク裏面を見ると、
2つのディスク装置のそれぞれに小さなLEDが付いていました。
この状態は、1つのディスクLEDはブルー点滅。
もう一つのディスクLEDは赤く点滅していました。
多分、
ブルー点滅のディスクを元に赤点滅のディスクを復元しているのでしょう。

3時間程経過。
RAIDディスクの全面LEDはブルー点灯に成りました。

しかし、
サーバーからのアクセスは出来ません。

サーバーを再起動⇒RAIDディスク認識とアクセス可能。

これで全面復旧しました。

【総評】
RAIDディスクの導入は、ディスク障害発生でも、そのまま続行できる可用性を高めるためでした。
しかし、電源が故障すると全面ダウンに陥るんですね。
まあ、障害発生の可能性確立を考えて冗長構造を構成しないといけないですね。

電源アダプターが故障するとは、初めての経験でした。