会社の商品で不具合が発覚した。
いつもは明るい、担当のエンジニアが血相を変えて対応している。
不具合の詳細
某業界の、データ転送システムで、入力されたデータを、大手ポータル会社に、画像や、かなりの量の詳細データを転送する仕組みで、
営業中の午後に、データ入力をしている客からの電話でそれは発覚した。
一週間ほどデータが転送されていないのだそうだ。
事実調査
担当エンジニアに一報が入った時には、エンジニアは、顔を青ざめ、事象が起こることを知っていたかのように、即座に反応した。
実は業界は、年始のこの時期に繁忙期を迎え、データ登録量が、段違いに増えるらしい。
そして、データ転送がされていない事実が確認された。
対応処置
本来の業務は後回しで、先ずはプログラムレベルでの原因調査を行い、判明した所で、修正作業に入った。
待っている顧客もいるので、期限は本日18時となった。
今は、11時なので、営業時間一杯でケリをつけなければならない。
ただ、システムを把握している開発員であれば、1日あれば十分である。
ただ、これから3ヶ月ほどは繁忙期という事で、同じ量のデータが送られてくるので、その量に対応できるシステムに作り直さなければならない。
無事に修正完了
詳細な修正箇所の説明があり、今現在の安定運用が報告された。
1週間程は、随時待機で、何かあれば対応できる状態にすることで、事なきを得た。
ようやく、担当開発員の顔に笑みが戻った。
ここからが大事
開発員は完了した気分でいたが、僕のASPサービスの経験では、ここからが勝負でした。
まず、このシステムの、
対応上限値は、一体、どの位のデータ量なのか?
と、担当開発員に聞いてみたところ、
一言目は、
「分からない」との事。
少し考えて、「今まではうまく動いていました」と、付け加えてきた。
「この商材は、繁忙期になると、落ちても仕方のないシステムだ」と、
僕が客なら怒っているだろう。
さらに、今回の問題で、データ不調が発生してから、1週間もの間、
会社内の誰も気がつかないということが、金を取っているシステムでは考えられなかった。
データ転送は、システムが定期的に自動バッチで行っており、
念のために転送バッチ後に、
データ転送の確認バッチというのが走っていた。
そして、毎回、その結果ログが、その部署全体のメーリングリストに配信されていた。
10人近くの人に、ログメールが配信されていたにもかかわらず、誰も1週間も気がつかなかったのだ。
見ないことが習慣化されていた
話を聞いてみたところ、ほぼ、全ての人が、昼夜問わず、数時間おきに、大量のデータが転送されてきていて、読まずに、メールの自動振り分け機能で、受信箱から、移動されていたのだ。
間違いなく、感覚がおかしいし、事故は、起こるべくして起きていた。
問題解決に向けて
まず、このメールとは別に、
障害検知の仕組みを導入することにした。
担当開発員は、知恵が回らないらしく、僕の提案にハテナ顔をしている。
「今現在送っているメール以上の情報は取れません。」との事。
この状態で、また運用を続ければ、必ず同じ障害が発生することは間違いないので、僕が手を貸すことにした。
取るべき対策は、
現在送られてきているメールをログとして、ログの異常値を検知し、
担当者の携帯電話にアラートメールを直接送信する、仕組みだ。
幸い、GoogleAppsを使っていたので、メールスクリプトを書けば、かなりの振り分けが出来るはずだ。
取り敢えずそこまで説明して、ようやく全員が理解できたようで、
全く、「無知の無知とは、怖い」と、改めて思い知らされた。
よくある、開発員の思い込みによる、システム制度の低さが原因でした。
その開発員も、この対応を機に、一段階レベルが上がってくれることを祈る。
0 件のコメント:
コメントを投稿