[Trouble][BLOG]正直参った。

またトラブルっすか・・・

今回遭遇したトラブル、それは「ブログが見えなくなる」というもので、CDN経由ですと502ステータスが返却され、ローカル接続だと404ステータスが返却するというものでした。発生していたエラーはNGINXで発生していて、以下のようなエラーが出ました。

[error] 116602#0: *21 failed to run set_by_lua*: set_by_lua:2: attempt to index field 'ctx' (a nil value)
stack traceback:
        set_by_lua:2: in function <set_by_lua:1>, client: 152.195.151.45, server: www.bluecore.net, request: "GET /archives/tag/azure HTTP/1.1", host: "www.bluecore.net"

[error] 116602#0: *21 failed to run header_filter_by_lua*: header_filter_by_lua:1: attempt to index field 'ctx' (a nil value)
stack traceback:
        header_filter_by_lua:1: in function <header_filter_by_lua:1>, client: 152.195.151.45, server: www.bluecore.net, request: "GET /archives/tag/azure HTTP/1.1", host: "www.bluecore.net"

ここで出力されるIPアドレスはCDN側のアドレスですが、これがなんとまぁ8/16 14:15前後あたりで発生しており、翌日8:00まで気づかないままで居りました。そういえばWeb関連は全く監視してなかったなーと言うのを思い出しまして、はい。

NGINXは正常に動作してるし、PHP-FPM7含めて一通りのコンポーネントは動作しているようでした。

一時的な対処としては

WEXAL SpeedTechnologyを全面的に停止しました。というよりは、排除しました。

# pst off
# yum -y remove kusanagi-prem

これだけでは戻ってくれず、さらにNGINXの設定ディレクトリから片っ端からWEXALが絡む設定を全て削除し、本来のサイト設定に仕込まれてるpst関連設定を全てコメントアウトして復帰することが出来ました。スクリプトから吐かれてるエラーがLUA絡みの処理が入ってるように読み取れたのと、LUAスクリプトを仕込んでるものがWEXAL以外になかったというのがあります。

不具合情報はキチンと公表されてた。

上記のように、プライムストラテジー社の情報にも不具合情報がありました。が、それにしても何故中途半端な時間に不具合が発生したんだろう?と思ったら、まさかのAzure VM設定で1月に1回自動アップデートをかけるAutomationジョブが存在していたことに気づきました∑(ノ∀`*)アチャー

∑(ノ∀`*)アチャーと思った瞬間

はい、これがその該当の設定画面ですが、スケジュールは月単位。画面には記載されてませんが、ジョブを作成したのが昨年10月16日で、その日を基準にAutomateジョブが動いてました。つまり、昨日8/16 14:15にアップデート処理が開始され、先述のWEXAL Speed Technologyの不具合を踏み抜いたっぽいです。

いやはや、ここ最近ブログサイトに対する監視はAzureに移してから余り必要性を感じずに手を緩めてましたが、かなーり甘かったなぁと。もう少しちゃんと監視できるよう監視方式を整理したいと思います、はい。