テクノロジー
ポイントグループの運用監視カイゼンの取り組み
はじめまして。ペイメントサービス部 ポイントグループの谷内(やち)です。 現チームにジョインしてから初めて業務でサーバーサイドを経験し、かれこれ3年近くDMMポイントに関するシステム(以下、ポイントシステム)の開発・保守をしています。 ところで皆さん、管理しているシステムで異常が発生した時、どのように検知していますか。 ポイントシステムの以前までの運用監視はひどいもので、システムの異常を検知しても実際に復旧に向けて動き出すまでに30分かかったこともありました。 しかし、ここ1年間で運用監視を大きくカイゼンし、今では障害発生から5分以内にはチームメンバー数人が事態を把握し、復旧に向けて行動できるようになりました。 今回の記事では、私たちが行ったポイントシステムの監視カイゼンの取り組みについて紹介します。