事件はいつも突然やってくる
とある日の昼下がり。うちの車内で面倒を見ているサーバーでふとトラブルの連絡が。
どうやらデータベースが入っているサーバーの正しい時刻を保ち続けるNTPというプロセスが突如ダウンしたとの連絡が。
NTP自体、あまりに大幅な時刻ズレを起こすと意図的にプロセスを落とす仕様になっている。
それはよいとしてなぜ突然時間がずれてしまったのか??
*ちなみに、内容は適当にごまかしてますので正確性は期待しないでね。
原因はさておき不調は続く
とりあえず、データベースサーバーの時刻が大きくずれてしまうなどデータベース的にはとんでもないことが起きてしまっている。
時刻の修正は現地にいた技術員Aさんが普通にちゃちゃっと普通に修正をしてくれたようです。
個人的にはあっさり直したことにすげー恐ろしいことをするな…という感はありましたがとりあえずの復旧はで来たようです。
ただ、これを起因としてなのかOSが不安定なのか他のプロセスなどの不調が数日間続いたそうです。
そして決定的な事件が
NTPがダウンをしてから数週間後についに決定的なことが発生しました。
そう、データベースサーバのトランザクションログ使用率が100%になってしまったのです。
それをきっかけに社内システムが一斉に使えなくなる大問題に発展。
その時は、なぜそうなってしまったのかが不明でとりあえずログ領域を拡張したりとかいろんなことが起きました。
大問題になり原因が判明
きっかけはあのNTPのダウンつまり時刻の大幅なズレがきっかけでした。
時刻が大幅にずれたことによりデータベースサーバーのトランザクションログの処理が停止してしまい古いログがどんどんたまってしまったことが原因でした。
そもそもなぜ時間のずれが生じてしまったのでしょうか?
調査の段階でなぜ時間がずれてしまったのかのログ等は表面上見つかりませんでした。
表面上はね…そう、システムログが幸いにも残っておりそこにはなんと時間を変更するためのコマンドが発行されていたのです。
こういうことだったらしい
- とある技術員Aさんがデータベースサーバーの環境保守をしている際に、仕様書にはあるがサーバーには存在していない仕様を発見。
- 当時、そのサーバーを構築をお手伝いした経緯もあり特権(rootユーザー)になれる裏技も知っていたためrootになり仕様通りに修正を実施。
- タイムスタンプ等も導入当初にするためコマンドを発行するコマンドの使い方を間違えており実際の時刻を修正してしまった。
- 発覚を恐れて使用していた特権アカウントを使い操作ログをすべて削除。
時刻が急に変わってしまったのはこういうことだったらしいです。
NTPが落ちた当時、時刻を修正してくれたのはまさに当人だったのです。
やけにリカバリーが早かったなと思ったのはそういうことだったんですね。
そして、さらにすごいのが
サーバー上の時刻を変えてしまった技術員Aさんは発覚を恐れシステムの操作ログなどをすべて削除してしまったのです!!!
隠ぺい工作でーす。仕様漏れを見つけて特権アカウントを無断使用して間違って時刻を変えてしまってデータベースサーバーをダウンさせちゃったんですからまぁ、隠したくもなりますよね…w
僕はそのサーバーとはかかわりが無い部門だったので高みの見物だったんですが他の技術員やお偉いさんなどはとても大変そうでした。
技術員Aさんは操作ログの削除の詰めが甘かったですねw(そういうことではないですけど)
ログは思いもよらぬところで残っていることもあるので、よっぽど熟知していない限り下手な隠ぺいはしない方がいいみたいです。
もっとも、やっちゃったことはやっちゃったことなので素直になるのが一番なんですけどね!!!!
みなさんも、気を付けましょう…
日々くだらないことを追い求め、黒歴史をまとめておくための自由なブログ。
あんまり役立つことは書きませんが主に日記・ゲームや買ったものについての記事を気まぐれで好き勝手書いています。