サービス

ジャンル

職種：エンジニア

職種：ビジネス職

職種：デザイナー

職種：バックオフィス

職種：その他職種

技術

<h2 id="カイゼン前の運用監視">カイゼン前の運用監視</h2>

<p>カイゼン前は以下のような運用監視をしていました。</p>

<p><img alt="" height="492" src="https://image.dmm-corp.com/tfm796g8qadofkgl0rfnpoljvy6f" width="783" /></p>

<p>この運用監視でもシステムの異常を検知することはできるのですが、実際には以下のような問題がありました。</p>

<ul>
	<li>障害担当者が見つかるまでに時間がかかる</li>
	<li>復旧にかかる時間が担当者のスキルに依存</li>
</ul>

<h3>Bad1：障害担当者が見つかるまでに時間がかかる</h3>

<p>システム異常のアラートを検知するとメールやSlackに通知され、それを見た監視チームから障害担当者へ架電されるようになっていました。<br />
障害担当者は複数人いたのですが、架電された一人目が出先だったり、就寝中ですぐに気付かなかったりすると二人目に架電、というように障害担当者を見つけるまでに時間がかかっていました。<br />
また、Slack通知でもシステムの異常を検知できますが、他のメッセージの通知に埋もれてすぐに気付かないこともありました。</p>

<h3>Bad2：復旧にかかる時間が担当者のスキルに依存</h3>

<p>オンプレサーバメトリクスはZabbix、アプリケーションログはKibana、クラウドメトリクスはAmazon CloudWatch、というように運用監視に必要な情報が様々なサービスに分散していました。<br />
このアラートを検知したらこうするといった復旧手順はなく、障害担当者がその場で各サービスを駆使し、必要なデータを集めて復旧対応していました。<br />
このように復旧にかかる時間が担当者のスキルに依存しており、担当者によっては復旧に時間がかかってしまうことがありました。</p>

<h2>監視サービスをDatadogへ移行したことをきっかけに運用監視を大カイゼン</h2>

<p>新CTOがDMMにジョインしたことによって、監視サービスがDatadogに統一されていく働きかけをきっかけに、ポイントシステムでもDatadogを導入しました。<br />
監視サービスを変更するという大きな変化があったことで、長年現状維持していたポイントグループの運用監視も見直すきっかけとなりました。<br />
そして、私たちはこれまでの運用監視をただ移行するのではなく、<strong>どうしたら監視する人の負担にならないか</strong>を考え、以下のようなカイゼンをしました。</p>

<ul>
	<li>運用監視に必要なデータをDatadogに集約</li>
	<li>一覧性の高いダッシュボードを作成</li>
	<li>アラート内容に復旧手順を記載</li>
	<li>PagerDutyの導入</li>
	<li>Slackコマンドで復旧できるように</li>
</ul>

<h3>カイゼン２：一覧性の高いダッシュボードを作成</h3>

<p>Datadog導入によって簡単に情報を収集できるようになったこと（例えば、サーバメトリクス取得設定は3分あればできる）も幸いして、<strong>運用監視に必要な情報をDatadogに集約</strong>しました。</p>

<p><img alt="" height="301" src="https://image.dmm-corp.com/fndpb44id4mmr5r8aecbcemh7sbk" width="498" /></p>

<p>これによって運用監視がDatadogのみで完結し、一覧性の高いダッシュボードの作成や、アラート管理のコスト削減などが可能となりました。</p>

<h3>カイゼン２：一覧性の高いダッシュボードを作成</h3>

<p>ヘルスチェック用ダッシュボードと障害調査用ダッシュボードの2つのダッシュボードを作成しました。</p>

<p>ヘルスチェック用ダッシュボードでは、<strong>各サービスの正常性を横断的に確認</strong>できます。<br />
主にどのサービスで障害が発生しているか、また、障害復旧後の解散の判断材料として利用しています。</p>

<p><img alt="" height="460" src="https://image.dmm-corp.com/ujx646i67rhc74thby6ohu1xji7g" width="800" /></p>

<p>障害調査用ダッシュボードでは、<strong>各サービスの詳細な情報を確認</strong>できます。<br />
これによって、何が原因で障害が発生しているかを、すぐに調査できるようになりました。</p>

<p><img alt="" height="503" src="https://image.dmm-corp.com/ptvbnmt84bk5syufytfx5qdev8lp" width="800" /></p>

<h3>カイゼン３：アラート内容に復旧手順を記載</h3>

<p>各アラートの内容にそれぞれの復旧手順を記載しました。</p>

<p><img alt="" height="807" src="https://image.dmm-corp.com/83xj2um80vp197mj1oucyd1u6rub" width="675" /></p>

<p>これによって、障害時に復旧方法を一から考える必要がなくなり、誰でも、すぐに復旧できるようになりました。</p>

<h3>カイゼン４：PagerDutyの導入</h3>

<p>緊急度が高いアラート検知時に、PagerDuty（機械音声で電話してくれるサービス）による架電 + Slack + LINEでメッセージ送信するようにしました。<br />
PagerDuty導入によって、運用監視チームを介さないことで運用コストを削減しただけでなく、担当者全員に同時に架電されることで対応可能な担当者がすぐに見つかるようになりました。<br />
また人からの架電の場合は、仮にSlackのメッセージ等で先に障害を検知していても「すでに障害を検知している」ということを伝えるためにも電話に出る必要がありましたが、PagerDutyになったことでたとえ電話に出なくともすぐに復旧対応を開始できるようになりました。</p>

<p><img alt="" height="253" src="https://image.dmm-corp.com/akp41h0909bsujncutvk6zevfdg4" width="800" /></p>

<h3>カイゼン５：アプリケーションの復旧をSlackのスラッシュコマンドで</h3>

<p>Slackの特定のチャンネルでスラッシュコマンドを打つことでアプリケーションのロールバックや起動、停止を行えるようにしました。<br />
これまでアプリケーションの復旧は、VPNに接続 &rarr; Jenkinsにログイン &rarr; Jenkinsジョブを実行、といった手順だったものが、スマホで<strong>Slack上にスラッシュコマンドを打つだけ</strong>でも良くなりました。</p>

<p><img alt="" height="487" src="https://image.dmm-corp.com/56v49t8t0ooq0rvdl47rsucmdrzs" width="800" /></p>

<h2>カイゼン後の運用監視</h2>

<p>様々なカイゼンによって以下の運用監視になりました。</p>

<p><img alt="" height="496" src="https://image.dmm-corp.com/d10tq4lsq58ew9pbz67xfj47nm28" width="783" /></p>

<p>復旧までのだいたいの流れは以下のような感じです。</p>

<ol>
	<li>Datadogで閾値を超えたアラートが発報される</li>
	<li>緊急度が高いアラートの場合、PagerDutyから<strong>担当者全員に対して同時に架電</strong>される（緊急度が低いものはSlack、LINE通知のみ）</li>
	<li>架電に気付いた人が電話の内容を聴いたり、Slack、LINEに通知されるアラートを見たりして障害の内容を把握</li>
	<li><strong>アラート内の復旧手順に従って障害を復旧</strong>（Datadog上のダッシュボードやログで何が異常なのかを詳細に確認したり、Slackのスラッシュコマンドでアプリケーションを再起動やロールバックしたりする）</li>
</ol>

<p>上のカイゼン後の図を見ても分かるようにカイゼン前と比べてだいぶシンプルになりました。<br />
カイゼン前はそもそも障害を検知してから対応できる人が見つかるまで時間がかかったり、検知しても復旧手順を考えるのに時間がかかったりしていましたが、今では障害が起きてから10分以内に復旧を完了させて解散することもあります。<br />
何より個人的に一番良かったのは「<strong>いつ障害が来ても大丈夫</strong>」と思えるようになり、心理的ストレスから解放されたことでした。</p>

<h2>さいごに</h2>

<p>今回はポイントシステムの運用監視カイゼンについてお話しましたが、ポイントグループでは他にも自分たち積極的に楽をするためのカイゼンを継続的に行なっています。<br />
ポイントグループでは一緒に働いてくれる仲間を募集していますので、ご興味のある方は是非ぜひ募集ページをご確認ください。<br />
<a href="https://dmm-corp.com/recruit/" target="_blank">https://dmm-corp.com/recruit/</a></p>

<p>&nbsp;</p>

<p>&nbsp;</p>

<p>&nbsp;</p>


はじめまして。ペイメントサービス部　ポイントグループの谷内（やち）です。
現チームにジョインしてから初めて業務でサーバーサイドを経験し、かれこれ3年近くDMMポイントに関するシステム（以下、ポイントシステム）の開発・保守をしています。

ところで皆さん、管理しているシステムで異常が発生した時、どのように検知していますか。
ポイントシステムの以前までの運用監視はひどいもので、システムの異常を検知しても実際に復旧に向けて動き出すまでに30分かかったこともありました。
しかし、ここ1年間で運用監視を大きくカイゼンし、今では障害発生から5分以内にはチームメンバー数人が事態を把握し、復旧に向けて行動できるようになりました。
今回の記事では、私たちが行ったポイントシステムの監視カイゼンの取り組みについて紹介します。

ポイントグループの運用監視カイゼンの取り組み

facebook

twitter

DMM TV

DMMブックス

DMM pictures

DMM GAMES

DMMオンクレ

DMMスクラッチ

DMMくじ

DMM Factory

ぷらさぷ ～＋SURPRISE～

DMMオンラインサロン

DMMいろいろレンタル

DMM DVD／CDレンタル

DMM通販

DMMオンラインクリニック

デジタルコミック事業

DMMチャットブースト

DMM英会話

DMM FX

DMMかりゆし水族館

ベルリング

ハッシャダイソーシャル

ヤンキーインターン

シント=トロイデンVV

DMM 地方創生

DMM.make 3Dプリント

DMM.make PRODUCTS

Seamoon Protcol by DMM Crypto

DMMバヌーシー

DMM EV ON

DMM WEBCAMP

DMMぱちタウン

DMM競輪

Waitinglist

Algoage

DMMポイントクラブ

社会課題

エンターテインメント

動画

電子書籍

アニメ

ゲーム

アプリゲーム

コミュニティ

オンラインサロン

PCゲーム

通販

レンタル

オンラインイベント

ビジネスソリューション

教育

英会話

水族館

ハードウェア・プロダクト

救急車両

消防車両

モノづくり施設

サッカー

スポーツ

地方創生

VR体験

Web3

生成AI

研究開発

アプリ

ブロックチェーン

プラットフォーム

横断開発

社会インフラ

アミューズメント

ダイバーシティ

同人

Webエンジニア

フロントエンドエンジニア

バックエンドエンジニア

サーバーサイドエンジニア

モバイルエンジニア

SRE・インフラエンジニア

情報システム

データ・AI・機械学習エンジニア

エンジニアリングマネージャー

テックリード

プロジェクトマネージャー・ディレクター

プロダクトマネージャー

事業開発・経営企画

営業

マーケティング・プロモーション

企画・プロデュース

ゲーム企画・プロデュース

コンテンツ制作・編集

カスタマーサポート・運営

データ分析・ストラテジー

UI・UXデザイナー

Webデザイナー

2Dデザイナー・イラストレーター

デザインマネージャー

デザインリード

ポイントグループの運用監視カイゼンの取り組み

シェア