[Tech][Hardware][Diary] 故障したHDDを交換したんだが。

意外と調達に難航したんだが。

HDDマウンタとHDDの調達を行いまして。
というのも、こないだ買ったDL360e Gen8のHDDが到着後起動してすぐに1本HDDがFAIL、1本がPredictive Failureになり。まさかのRAID5領域がダブルフォルトの危機になりまして。

450GBのSAS玉(15k)なんですが、意外とオークションなどでHPEブランドのディスクはいろいろ転がってまして、取り敢えず合計1万円ぐらいで中古HDDを4本、マウンタを合計3つ入手しました。

で、今回はそのうち1つを使って、Bay1のディスクリビルドを仕掛けたんですが・・・

えっ・・・・・・・・?どうして・・・・・・・・・・・?(`;ω;´)

交換⇒リビルド開始⇒リビルド終了⇒交換ディスクから・・・

Predictive Failureですよ!おくさん!
まさかの交換したディスクが瀕死という素敵な結末を迎えてしまい、取り敢えず本格的にぶっ壊れるまで働けぇ!とムチを打ってる感じで動かしています。

現在、機種にはESXiサーバとして動いてもらってるんですが、SmartStorage Administrator(だっけ?)と言うツールがESXiには入っていて(HPEカスタマイズ版に限り)、これでRAIDアレイの状態が見れるので確認してみました。

Arrayコントローラーの情報取得

[root@suzuran:/opt/smartstorageadmin/ssacli/bin] ./ssacli controller slot=1 show

Smart Array P222 in Slot 1
   Bus Interface: PCI
   Slot: 1
   Serial Number: PDSXH0BRH5X1T2
   Cache Serial Number: PBKUA0BRH5X88C
   RAID 6 (ADG) Status: Enabled
   Controller Status: OK
   Hardware Revision: B
   Firmware Version: 8.32-0
   Rebuild Priority: Low
   Expand Priority: Medium
   Surface Scan Delay: 3 secs
   Surface Scan Mode: Idle
   Parallel Surface Scan Supported: No
   Queue Depth: Automatic
   Monitor and Performance Delay: 60  min
   Elevator Sort: Enabled
   Degraded Performance Optimization: Disabled
   Inconsistency Repair Policy: Disabled
   Wait for Cache Room: Disabled
   Surface Analysis Inconsistency Notification: Disabled
   Post Prompt Timeout: 15 secs
   Cache Board Present: True
   Cache Status: OK
   Cache Ratio: 25% Read / 75% Write
   Drive Write Cache: Disabled
   Total Cache Size: 512 MB
   Total Cache Memory Available: 304 MB
   No-Battery Write Cache: Disabled
   Cache Backup Power Source: Capacitors
   Battery/Capacitor Count: 1
   Battery/Capacitor Status: OK
   SATA NCQ Supported: True
   Spare Activation Mode: Activate on physical drive failure (default)
   Controller Temperature (C): 88
   Cache Module Temperature (C): 39
   Capacitor Temperature  (C): 29
   Number of Ports: 2 (1 Internal / 1 External )
   Driver Name: nhpsa
   Driver Version: 2.0.28-1OEM
   PCI Address (Domain:Bus:Device.Function): 0000:08:00.0
   Host Serial Number: CN734406MT
   Sanitize Erase Supported: False
   Primary Boot Volume: logicaldrive 1 (600508B1001C18EB2DF81DC2F751D85D)
   Secondary Boot Volume: None

物理HDDの状態取得

[root@suzuran:/opt/smartstorageadmin/ssacli/bin] ./ssacli controller slot=1 phys
icaldrive all show

Smart Array P222 in Slot 1

   Array A

      physicaldrive 2I:1:1 (port 2I:box 1:bay 1, SAS HDD, 450 GB, Predictive Failure)
      physicaldrive 2I:1:2 (port 2I:box 1:bay 2, SAS HDD, 450 GB, OK)
      physicaldrive 2I:1:3 (port 2I:box 1:bay 3, SAS HDD, 450 GB, OK)
      physicaldrive 2I:1:4 (port 2I:box 1:bay 4, SAS HDD, 450 GB, Predictive Failure)

はい、悲しいことにベイ1とベイ4のディスクが半壊状態です。なおPredictive Failureってのは、HDDで軽微なエラーが出続けてる状態のこと。軽微なエラーであれば、再読込をすることで復帰する可能性が高く、これに対してマジなFAILというのは、ハードエラーと呼ばれる復帰不能な不良ブロックが発生した場合に発生するエラーが、大量に出た場合に発生し、この時はディスクが完全に切り離されます。

経験的に言うと、ソフトエラーは結構ポツーンポツーンと発生する感じなのですが、ハードエラーに関しては、最初は広めの間隔で発生し、その後しばらくして一気に数百回ぐらい検出されたりしますね。ハードエラー自体物理的な障害であったりすることも多いので、ぎりぎり動けてたものがとうとう一線を越えて死んだとか、そういう感じの動きをするのかな?と思ってます。

物理HDDの詳細状態取得

[root@suzuran:/opt/smartstorageadmin/ssacli/bin] ./ssacli controller slot=1 physicaldrive 2I:1:4 show

Smart Array P222 in Slot 1

   Array A

      physicaldrive 2I:1:1
         Port: 2I
         Box: 1
         Bay: 1
         Status: Predictive Failure
         Drive Type: Data Drive
         Interface Type: SAS
         Size: 450 GB
         Drive exposed to OS: False
         Logical/Physical Block Size: 512/512
         Rotational Speed: 15000
         Firmware Revision: HPD6
         Serial Number: 6SK2MKB30000N5048SKA
         WWID: 5000C50077592C3D
         Model: HP      EF0450FARMV
         Current Temperature (C): 37
         Maximum Temperature (C): 59
         PHY Count: 2
         PHY Transfer Rate: 6.0Gbps, Unknown
         Drive Authentication Status: OK
         Carrier Application Version: 11
         Carrier Bootloader Version: 6
         Sanitize Erase Supported: False
         Shingled Magnetic Recording Support: None

物理ドライブの状態は上記のように表示されますが、残念ながら時系列なログとかは特に記録されてなくて、iLOにそれっぽいのはあるものの、うまく動きがつかめていません。

論理ドライブの情報

[root@suzuran:/opt/smartstorageadmin/ssacli/bin] ./ssacli controller slot=1 logicaldrive1 show

Smart Array P222 in Slot 1

   Array A

      Logical Drive: 1
         Size: 1.2 TB
         Fault Tolerance: 5
         Heads: 255
         Sectors Per Track: 32
         Cylinders: 65535
         Strip Size: 256 KB
         Full Stripe Size: 768 KB
         Status: OK
         MultiDomain Status: OK
         Caching:  Enabled
         Parity Initialization Status: Initialization Completed
         Unique Identifier: 600508B1001C18EB2DF81DC2F751D85D
         Boot Volume: primary
         Logical Drive Label: AEB79092PDSXH0BRH5X1T24307
         Drive Type: Data
         LD Acceleration Method: Controller Cache

この手のコマンドは

管理する上で結構便利なのでおすすめです。運用・保守作業においても、こうしたVMwareホスト上で動作するCLIはかなーり重宝します。一応iLOがあれば検出できるし、通知も出来るけど、Standardライセンスしかないのであれば、メール発報できないので、そういう場合にvSphere系のCLIを組み合わせて発報の仕組みを作るとか、そういうのはありなんじゃないかなと思います。

富士通のサーバであれば、Server Viewで検出できるようにバックグラウンド動作するプラグインが動いているので、それ経由で検出したりとか、こういう部分は各社結構アプローチが違います。自身に合うアプローチを持ったメーカーのサーバを調達することが重要かなーと正直感じています。

取り敢えずPredictiveとは出てるので、すぐに壊れることはないんだろうとは思っており、悔しいのでFAILするまで徹底的に使ってやろうという気持ちでおります。はい。

コメント

タイトルとURLをコピーしました