daisuke-m宅のマシンがRAIDの構成ディスクが壊れたのでヘルプへ行ってきた

id:daisuke-m自宅サーバRAIDがおかしくなり
OSが起動しなくなった。 という事で
友達が困ってたら助けるだろ! と
JJUG JavaOne Tokyo Night Partyの後にヘルプに行ってきました。


3Ware製のRAIDカードでHDDが1個 Not in Use状態で認識せず。
HDD単体だとカチンカチンとなるので故障している状態。


UNIT HDD 0 & HDD 1 mirror
UNIT HDD 2 & HDD 3 mirror
この2つのunitがStriping


1のHDDがNot in Use状態。
1を取り除き、同じ型のHDDを取り除き在庫のHDDに変えて起動するも
別のArrayとして認識したりおかしい状態。


会社がはじまる時間までに時間的に復旧出来そうないので
RAIDのrebiludを行なってRAID復旧を行うという当初の目的から
データを取り出すという事だけに目標を切り替え。


※以前に同社の別のRAIDカードでRAIDを組んでたHDDで
 以前のRAIDの情報が何かHDDに残っており
 それを初期化する方法を見つけて実行する時間が無かった。


UNIT HDD 0
UNIT HDD 3
上記のようにUnitの中を正常な片方だけのStriping状態にして起動すると
/tmpのスライスが起動時のfsckでエラーで起動せず。


起動時のスクリプトではなく人手でfsckをかける。
また最悪/tmpなのでフォーマットしなおす。
という方針で下記を実行。


1.RHEL(CentOS)のインストールメディアから立ち上げて -> F2 ->linux rescue
2.English->jp106->Local CDROM->Networking No->Rescue Skip


3.LVM領域を認識させてステータスを確認。
# lvm vgscan
# lvm vgchange -ay VolGroup00
# lvm lvdisplay | grep "LV Status"

  • > LV Status available 確認


4.認識させたLVM領域にfsckを実行してファイルシステムを復旧。
# fsck -pfv /dev/VolGroup00/xxxx


5.exitしてOS再起動。


無事再起動してSCPにてデータをサルベージ。
daisuke-m宅を後にして会社へ向かう。


という事でRAIDが復旧出来るテスト(運用スタートアップテストの一つ)を
行なってから本番運用を始めましょう。バックアップは取りましょう。
という事でw


トラブルを経験して乗り切って実力がつくものです。
クラウドでこのような障害をさけるというのも手ですが
このような技術を身につけた上でクラウドを使用した方が
なんらかのトラブル時にも対応力がつくはず。
id:daisuke-m がんばってね!