[Storage][Trouble] 2UサーバのCPU増設失敗&まさかのNAS起動

経緯

過去の記事にも書いたのですが、自宅の集合ストレージ(eVstor i2002aG2)が半壊しており、現在管理コンソールにアクセスが出来ない状態です。不幸中の幸いと言うか、RAIDコントローラ及びiSCSIターゲット、ディスクは無事で、ディスクIOは継続できているんですが、残念ながら設定変更などが行えない状況にあります。

そこで、これまで休眠状態であった2Uサーバを再度動かすことにしました。

そして、過去投稿してきた記事にもあるように、Isilon SD Edgeの評価を行った所、どうやらIsilonクラスタを一度構築すれば、ESXi単発構成でも稼働が維持できそうだぞということ、Xeon X5570クラスのCPUでもそこそこのパフォーマンスで動作するということが分かり、それに向けて評価すべく、CPUの調達を行いました。

CPU増設&失敗

さて、調達したCPUですが、本番で動かしているのと同じXeon E5620(1P/4C 2.4GHz Westmere-EPコア)です。Isilon SD EdgeのクラスタノードはCPU最低要件が2vCPUであること、ノード数最低要件が3ノードであることから、最低限6つのCPUコアが必要です。Westmere-EPコアだとだいぶ安く調達できるのと、増設実績があることからE5620を調達しました。別途、ヒートシンクも過去に調達済みでした。

これを用いて、既存のXeon X5570 CPUを外し、CPU換装・増設していったわけですが・・・

結論を言うと、システムボード及びその他もろもろの周辺機器が壊れました。というのもまず、電源が入りませんOrz。しばらくシステム管理ボードに通電するんですが、システム管理ボードに通電後、電源ボタンを押下しても全く反応しないという。
その後、しばらくするとERROR LEDの点灯と共に「ピー!」というBEEP音が。ぐぬぬ、その後ハード側のステータスコードを眺めたのですが、どうも出力コードは「FF」。なんとこのコードマニュアルにも記載がなく、「複数箇所で複数の障害が発生した」と言う扱いになるようで、サッパリわけわからない。

元の構成に切り戻したりもしたんですが、どうやらこの状況を改善することは難しいようで、仕方なくこのサーバを動かすことを諦めることにしました。

大昔に買ったNASを見つけた

2Uサーバからパーツを取り外して取り敢えず片付けた後、ふと目をやると、数年前に買ったInfortrend EonNAS Pro 200が目に入りました。CPUにAtom D525(1P/2C)、メモリはDDR3 4GBを搭載した2ベイタイプのエントリーNASです。

これ実はVMware Readyな製品で、過去にこれをデータストアにして仮想環境を載せたことがあるんですが、まぁ流石にそこで重複排除を有効にした所、過負荷がかかって二度と起動しなくなったといういわくつきの代物でして、捨てる予定で放置してたのです。

特に意味はなく、これもしかしたら初期化出来たら起動しないかなー?とか思いながら、起動してしばらく経った後、初期化ボタンを押して、有線ネットワークに繋いで初期IPでアクセスしたら、これがまたなんと起動してしまったという話で。ウワーォ、ラッキー!!
せっかくなので、2Uサーバに載せてたHDD(1TB)を2本抜き取り、こいつに装填して使ってみることにしました。

管理画面など

色々操作してみたのですが、いろんなことがわかりました。結構この製品面白いです。

  • 内部ではSolaris 5.11が動作している。
  • 最初起動した状態では初期設定が実装されており、後から追加設定として設定したホスト名・IPアドレスが反映されている
    • OSの起動表示を眺めた感じだと、これ内部でコンテナを起動してないかな?という気がしました。
  • 背面にシリアルコネクタがあるなぁと思ったら、まさかのディスプレイコネクタでした。
    • シリアルはD-Sub9ですが、ディスプレイはD-Sub15。
    • 併せてついてるUSBポートにキーボード繋いだら、あら不思議、普通にPCとしてコンソール操作ができる
      • とは言っても、コンソールから打てるコマンドはかなり制限されていました。少なうともシェルコマンドは実行できなさげです。
      • というわけで、基本的にはWebUIを使うことになります。

以下はログインした時のホーム画面です。

以下は、システム情報の画面です。NICはLink Aggregation出来るんですが、モードはLACPのみです。なので、スイッチ側もLACPを組む必要があります。一応IPv6にも対応していて、RAでアドレス受信ができていました。というか、RAでしかアドレス設定できないみたいです。搭載ハードディスクの情報ももちろん拝めます。 ハードディスク情報画面から、S.M.A.R.Tの情報も参照できます。温度センサーの情報も見れるので、これは嬉しい所。ただ、残念ながらSNMP Trapを発行することは出来るのですが、SNMPプロトコルでの監視エージェントの機能は実装されていません。 共有フォルダは取り敢えずCIFS/NFSそれぞれの用途で構成したのですが、今のところ使用しているのはNFSのみです。(後述しますが、NFSデータストアも作ってみました) ダッシュボード画面では、CPU負荷、ネットワーク負荷、メモリ負荷、ディスク負荷をグラフで確認することが出来ます。他にも接続数などの推移も見守ることが出来ます。

で、せっかくこうして組めたので、使わないわけにはいかんなぁ・・・ということで、早速ですが、ナンボかデータを移行させて遊んでみました。まぁまぁ、その後色々起きたわけなんですが。

起きたこと

試しにやったのは以下のとおりです。

  1. Unity VSAで動いてるNFSストレージを移行した
  2. VMware NFSデータストアとして使ってみた
  3. 1TBのディスクを2TBに換装してみた

1.についてなのですが、これはうまく行っていて、現在も無事に稼働中です。ただし、毎日のデータバックアップ処理がいつもは30分で終わる所が1時間40分ほどかかっています・・・

2.については、一度は18台のVMをここに移動してみたのですが、後述する3.の試みでエラいことになり、断念しました。現在集合ストレージに戻してますが、ストレージがオーバーコミットした状態になっています。

3.についてですが、以下の流れで行おうとしました。(「行おうとした・・」ということはそう、失敗しています)

  • 1TBディスクの片側を抜いて、2TBディスクを突っ込む
  • リビルド完了するまでじっと待つ (問題箇所▲)
  • 残る1TBディスクを抜いて、2TBディスクを突っ込む (問題箇所★)
  • リビルド完了するまでじっと待つ
  • 領域拡張をして2TBだイエーイ

まずエライことになったのが、▲箇所で、リビルド中Write性能がガタ落ちし、殆どデータが書き込み出来ない状態になりました。具体的には、スループットが1MB/s以下になりました。結果、NFS領域に接続しているサーバのLoad Averageが20-60辺りをウロウロする羽目になり、ブログサーバやMastodonサーバが死にました。NFSデータストアの接続がプチプチ切れる状態に陥り、心の底から「まずったー・・・」と後悔する羽目になりました。

完全に失敗したのは上記★箇所で、どの2TBディスクをツッコんでもRebuildに失敗するのです。OFFLINEのまんまかAnAvailになるか。ディスクのS.M.A.R.T情報は正常だし、ディスク単体だと読み書きできるので、恐らくは仕様上差し替えが効かないんじゃないかなぁーと予想しています。結局1TBディスクへ差し戻し、この構成を継続させることにしました。

また、NFSデータストアを構成している限り、APD検出ロジックが働いてNFSアクセスとしてそれなりにIO負荷をかけてしまうようで、そういう意味でもチョット使いづらいと感じ、NFSデータストアに移行したVMは全部集合ストレージに切り戻した・・・・と言う感じです。

この間、ディスク活性もCPU負荷もそんなに高くなくて、高めなのはメモリ使用量だけだったんですが・・・うーん。

というわけで

現在NFS領域だけこのNASに移して自宅環境は稼働しています。CIFSも一部必要データだけコピーしようかなと、実際一部データコピーを試行したんですが、このコピー処理がぶっちぎりで優先的に扱われてしまい、NFSの処理がガタ落ちするという現象が起きてしまい・・・うーん、どのみちこれ駄目じゃねぇかって結論になってしまいまして。

自宅で動かしてる他のNASとしては、NETGEAR ReadyNAS RN104がありますが、これと比べるとUIの便利さは見劣りします。率直な印象としては「中途半端」な感じです。

  • コンソールからの操作がほぼ行えない(停止・リブート・ファクトリーリセットぐらいしかない)
  • LAG設定がLACPしか出来ない(静的LAGはNG)
  • IPv6対応しているが、手動設定できない(え、DHCP or RA受信だけ!?)
  • 最新ファームウェアは保守契約をちゃんと締結しないと入手できない
    • 私のは外箱付き新古品だったんだけど、残念ながら保守契約は代理店経由が必要となっていて、そういう手続を当時出来なかった(´Д`)みたい
    • ⇒どうやら今は自由にダウンロードできるみたいです。
      • ただ、残念ながらバージョンアップに必要な中継バージョン(Bridge for Update Package)の一つがもう入手不可能Orz
  • アンチウイルス機能が何故かICAP連携
    • RN104だとClamAVを内蔵していて、単発で機能できる
    • 対応製品はSymantec/Trendmicroだけ。
  • 処理の優先度定義と言うか、複数機能を動かすとパフォーマンス劣化が半端ない

ただ、明らかにRN104よりパフォーマンスは圧倒的と言っていいぐらい良いです。逆に、evstorに比べると全然下っ端な感じです。コントローラというかプロセッサの性能差が大きいのかなとも感じました。

ふと気になったこと

壊れた2Uサーバはパーツ抜き取って放置プレイなんですが、動かなくなった原因は「グリスの塗りすぎ・それに伴うグリス漏洩⇒回路ショート」かなぁと思っています。いやぁ・・・・盛りすぎました。途中通電前に気づいて、余計なグリスを除去したんですが、それでも目に見えてないところでグリスがこぼれたのかなぁと言う気がしないでもないです。

ただまぁ、システムボードが破損したのならしたで、システム管理ボードは指定のイベントコードを発行するはずなんですが、なんで「FF」なのかが釈然としない所ではあります。

で、チョット気になったのは「実は電源関連のケーブルが断線してるんじゃね?」疑惑。実はCPU周りは専用カバーを取り付ける必要があるんですが、これを取り付ける際、結構電源関連のケーブルに傷がつきます。ケーブルの取り回しが結構シビアなんですよね。問題のケーブルはカバーの上を這ってる黄色と黒のケーブルです。

これが筐体フレーム側に回り込む際、筐体の角と擦れ合ってあまり状態良くないんですよね。気力がある程度回復してきたら、このあたりのケーブルを交換してみて動くかどうか試してみたいなーとも考えています。

いずれにしても、ここ最近色々こういうネタがたくさんありすぎて、やりこみ過ぎた感はあるので、「いい加減にしろ」と神様かご先祖様かが待ったをかけたのかもしれません。なので、本日(2/12)昼間はゆっくり横になってました。焦ってはいないはずなんですが、知らないうちに焦ってしまっていたのかなあ・・(´Д`)