真相は未だ明かされず。KDDIが年末年始の通信障害原因発表

年末年始にauはiPhone 5を含む全てのLTE端末で通信障害が発生した。頻発したことと、障害発生時間が長かったことなどから総務省の行政指導が入るという話もあり、かなり大きな問題となっていた。

その障害について、本日KDDIが障害原因を発表した。正直、不可解だしスッキリしない内容。真相はまだ分かっていないという感じがしてならない。

KDDIの公式発表

詳細は以下。

要するに、通信量が想定を超えたからという話だ。
その他に、携帯ジャーナリストの石川温氏によるツイート。

メモリアロケートとか技術者にしかわからんだろ!と思うが、正直あまりスッキリしない調査結果の発表だ。この発表に2週間もかかったことにも若干不信感がある。

疑問点

年末年始は「あけおめメール」などで、通信トラフィックが増大するのは各社想定していたはず。なのにauだけなぜ起こったのか。しかも、最初の障害が発生したのは31日〜1日にかけてではなく、31日の午前0時から。この時間にトラフィックがそんなに増えるの?と思う。

まあ増えたのは事実なんだろうが、障害が発生した時間は深夜。公式発表で想定の7倍というが、深夜のトラフィックが7倍になったからって、昼間より多いとはちょっと考えにくい。しかも、例えばイベント会場など人が集まっている場所ならともかく、全国的に障害が発生。

深夜は技術屋的には新システムを稼働させたり、サーバーを再起動させたりする事が多い。だから、昼間ほどのトラフィックを捌けない状態だったのかもしれないが、真相原因ってヒューマンエラーなんじゃないのと思える。

また、auのiPhone 5では、この障害が発生する前からも通称「パケ詰まり」と呼ばれる現象が発生し、ユーザー間ではかなり有名になっていた。

この問題は長期間発生するわけではないので埋もれやすいが、最近僕もそれと思われる現象に出会うようになってきたし、やはりau回線には何かあると感じる。今回の障害も無関係ではないのではと思わせる。

まとめ

最近は世の中の様々なものが電子化しているが、それを設計し作るのは人間。運用するのも人間。複雑化が進む最近のシステムにおいて、障害を0件にするというのは現実的には難しい。

例えばdocomoは「絶対に障害は起こしてはならない」という前提だと聞く。確かに、以前端末開発に携わっていた人間としては頷ける。逆に以前障害が頻発していたSoftBankで最近大規模障害が発生しないのは、「障害は起こしてはならないが、起こるものとして、その時いかに迅速に復旧させるか」を重視しているから、なんて話をどこかで聞いた覚えがある(アンチSoftBankの人は、通信制御でほとんど使えないようにしているから起こらないなんて話をよく言ってるが)。KDDIがどちらの方針なのかは分からないが、何となく前者なのかなぁという気がする。

この悩みは、僕の仕事であるシステム開発でもついて回る事で、どちらが正解というものではない。ユーザーとしては「安心して使いたい」、それだけなのだから。

ただ、障害を0件にするためにかかるコスト(それでも0件にならないのが世の常)と多少の問題はリスクとして認識&許容し、障害発生時に最速で復旧させる仕組みを持たせるコストだと、おそらく後者の方が現実的なんじゃないかとは常々思っている。

KDDIの田中孝司社長は技術者出身で、個人的には非常に親近感を持っていることもあり、応援しているが、技術者出身だからといってユーザーに向き合うことを疎かにしないで欲しいものだ。KDDIには一人のユーザーとして真摯な対応を心から願いたい。

SPONSORED LINK