意外と調達に難航したんだが。
HDDマウンタとHDDの調達を行いまして。
というのも、こないだ買ったDL360e Gen8のHDDが到着後起動してすぐに1本HDDがFAIL、1本がPredictive Failureになり。まさかのRAID5領域がダブルフォルトの危機になりまして。
450GBのSAS玉(15k)なんですが、意外とオークションなどでHPEブランドのディスクはいろいろ転がってまして、取り敢えず合計1万円ぐらいで中古HDDを4本、マウンタを合計3つ入手しました。
で、今回はそのうち1つを使って、Bay1のディスクリビルドを仕掛けたんですが・・・

えっ・・・・・・・・?どうして・・・・・・・・・・・?(`;ω;´)
交換⇒リビルド開始⇒リビルド終了⇒交換ディスクから・・・
Predictive Failureですよ!おくさん!
まさかの交換したディスクが瀕死という素敵な結末を迎えてしまい、取り敢えず本格的にぶっ壊れるまで働けぇ!とムチを打ってる感じで動かしています。
現在、機種にはESXiサーバとして動いてもらってるんですが、SmartStorage Administrator(だっけ?)と言うツールがESXiには入っていて(HPEカスタマイズ版に限り)、これでRAIDアレイの状態が見れるので確認してみました。
Arrayコントローラーの情報取得
[root@suzuran:/opt/smartstorageadmin/ssacli/bin] ./ssacli controller slot=1 show
Smart Array P222 in Slot 1
Bus Interface: PCI
Slot: 1
Serial Number: PDSXH0BRH5X1T2
Cache Serial Number: PBKUA0BRH5X88C
RAID 6 (ADG) Status: Enabled
Controller Status: OK
Hardware Revision: B
Firmware Version: 8.32-0
Rebuild Priority: Low
Expand Priority: Medium
Surface Scan Delay: 3 secs
Surface Scan Mode: Idle
Parallel Surface Scan Supported: No
Queue Depth: Automatic
Monitor and Performance Delay: 60 min
Elevator Sort: Enabled
Degraded Performance Optimization: Disabled
Inconsistency Repair Policy: Disabled
Wait for Cache Room: Disabled
Surface Analysis Inconsistency Notification: Disabled
Post Prompt Timeout: 15 secs
Cache Board Present: True
Cache Status: OK
Cache Ratio: 25% Read / 75% Write
Drive Write Cache: Disabled
Total Cache Size: 512 MB
Total Cache Memory Available: 304 MB
No-Battery Write Cache: Disabled
Cache Backup Power Source: Capacitors
Battery/Capacitor Count: 1
Battery/Capacitor Status: OK
SATA NCQ Supported: True
Spare Activation Mode: Activate on physical drive failure (default)
Controller Temperature (C): 88
Cache Module Temperature (C): 39
Capacitor Temperature (C): 29
Number of Ports: 2 (1 Internal / 1 External )
Driver Name: nhpsa
Driver Version: 2.0.28-1OEM
PCI Address (Domain:Bus:Device.Function): 0000:08:00.0
Host Serial Number: CN734406MT
Sanitize Erase Supported: False
Primary Boot Volume: logicaldrive 1 (600508B1001C18EB2DF81DC2F751D85D)
Secondary Boot Volume: None
物理HDDの状態取得
[root@suzuran:/opt/smartstorageadmin/ssacli/bin] ./ssacli controller slot=1 phys
icaldrive all show
Smart Array P222 in Slot 1
Array A
physicaldrive 2I:1:1 (port 2I:box 1:bay 1, SAS HDD, 450 GB, Predictive Failure)
physicaldrive 2I:1:2 (port 2I:box 1:bay 2, SAS HDD, 450 GB, OK)
physicaldrive 2I:1:3 (port 2I:box 1:bay 3, SAS HDD, 450 GB, OK)
physicaldrive 2I:1:4 (port 2I:box 1:bay 4, SAS HDD, 450 GB, Predictive Failure)
はい、悲しいことにベイ1とベイ4のディスクが半壊状態です。なおPredictive Failureってのは、HDDで軽微なエラーが出続けてる状態のこと。軽微なエラーであれば、再読込をすることで復帰する可能性が高く、これに対してマジなFAILというのは、ハードエラーと呼ばれる復帰不能な不良ブロックが発生した場合に発生するエラーが、大量に出た場合に発生し、この時はディスクが完全に切り離されます。
経験的に言うと、ソフトエラーは結構ポツーンポツーンと発生する感じなのですが、ハードエラーに関しては、最初は広めの間隔で発生し、その後しばらくして一気に数百回ぐらい検出されたりしますね。ハードエラー自体物理的な障害であったりすることも多いので、ぎりぎり動けてたものがとうとう一線を越えて死んだとか、そういう感じの動きをするのかな?と思ってます。
物理HDDの詳細状態取得
[root@suzuran:/opt/smartstorageadmin/ssacli/bin] ./ssacli controller slot=1 physicaldrive 2I:1:4 show
Smart Array P222 in Slot 1
Array A
physicaldrive 2I:1:1
Port: 2I
Box: 1
Bay: 1
Status: Predictive Failure
Drive Type: Data Drive
Interface Type: SAS
Size: 450 GB
Drive exposed to OS: False
Logical/Physical Block Size: 512/512
Rotational Speed: 15000
Firmware Revision: HPD6
Serial Number: 6SK2MKB30000N5048SKA
WWID: 5000C50077592C3D
Model: HP EF0450FARMV
Current Temperature (C): 37
Maximum Temperature (C): 59
PHY Count: 2
PHY Transfer Rate: 6.0Gbps, Unknown
Drive Authentication Status: OK
Carrier Application Version: 11
Carrier Bootloader Version: 6
Sanitize Erase Supported: False
Shingled Magnetic Recording Support: None
物理ドライブの状態は上記のように表示されますが、残念ながら時系列なログとかは特に記録されてなくて、iLOにそれっぽいのはあるものの、うまく動きがつかめていません。
論理ドライブの情報
[root@suzuran:/opt/smartstorageadmin/ssacli/bin] ./ssacli controller slot=1 logicaldrive1 show
Smart Array P222 in Slot 1
Array A
Logical Drive: 1
Size: 1.2 TB
Fault Tolerance: 5
Heads: 255
Sectors Per Track: 32
Cylinders: 65535
Strip Size: 256 KB
Full Stripe Size: 768 KB
Status: OK
MultiDomain Status: OK
Caching: Enabled
Parity Initialization Status: Initialization Completed
Unique Identifier: 600508B1001C18EB2DF81DC2F751D85D
Boot Volume: primary
Logical Drive Label: AEB79092PDSXH0BRH5X1T24307
Drive Type: Data
LD Acceleration Method: Controller Cache
この手のコマンドは
管理する上で結構便利なのでおすすめです。運用・保守作業においても、こうしたVMwareホスト上で動作するCLIはかなーり重宝します。一応iLOがあれば検出できるし、通知も出来るけど、Standardライセンスしかないのであれば、メール発報できないので、そういう場合にvSphere系のCLIを組み合わせて発報の仕組みを作るとか、そういうのはありなんじゃないかなと思います。
富士通のサーバであれば、Server Viewで検出できるようにバックグラウンド動作するプラグインが動いているので、それ経由で検出したりとか、こういう部分は各社結構アプローチが違います。自身に合うアプローチを持ったメーカーのサーバを調達することが重要かなーと正直感じています。
取り敢えずPredictiveとは出てるので、すぐに壊れることはないんだろうとは思っており、悔しいのでFAILするまで徹底的に使ってやろうという気持ちでおります。はい。
No responses yet