サービス

ジャンル

職種：エンジニア

職種：ビジネス職

職種：デザイナー

職種：バックオフィス

職種：その他職種

技術

<h3 id="はじめに">はじめに</h3>

こんにちは、プラットフォーム事業本部の石垣雅人(<a href="https://twitter.com/i35_267" target="_blank">@i35_267</a>)です。 
現在は、DMM.comのサービスで利用される基盤システムの開発チームでプロダクトオーナーをしております。

今回は、ローンチしたサービスをチームで運用していく際に、必ず直面するであろう「障害」への向き合い方についてのSREの観点で事例を紹介します。

<h3 id="起因">起因</h3>

どの開発チームでも日々、ローンチしたサービスの稼働率を落とさないために様々な障害対策を行っていると思います。 
CIツールの導入によってリリース作業を自動化してリリースミスを防いだり、自動テストでプロダクト品質を担保したりなど。

しかし、いくら起こさないようにしても障害は起こってしまうものです。 
つまり、稼働率100%をずっと続けるのはとても難しいものです。

では、そうした場合どうすればいいのかと考えて、たどり着いた結論があります。

<img alt="" height="383" src="https://image.dmm-corp.com/3ezhdyz8ycbo1fk5nsj9pgyb7fbj" width="700" />

それは、障害を起こさないのではなく、障害が起こった時に『いかに早く復旧するか』に力を入れるということです。 
別な言い方をすれば、 
『障害』というものをユーザーに気づかせる前にこちらが気づいて、復旧してしまえばそれは障害にならない。 
ということです。 
&nbsp;

<h3 id="Disaster-in-recovery-trainingとは">Disaster in recovery trainingとは？</h3>

では、復旧を早めるためにはどうすれば良いのでしょうか。 
もちろん、システムのブラックボックス・ホワイトボックスともにモニタリングを強化して、異常を検知すればすぐに通知するなどの対策も思いつきます。ただ、障害に対してチームで対応することを考えると、まずは全体を通して 
『チームとして障害対応する時にどこが弱いか、チームとしてどこに問題があるか』を可視化するべきです。

そして、そこで最適になるのが、『Disaster in recovery training』というアプローチ方法、つまり、障害訓練です。

<img alt="" height="381" src="https://image.dmm-corp.com/tppfx9l89v6q7kbwyrjhzmk8ke59" width="700" />

仮の障害シナリオを作成し、実際のサービス環境をCOPYした環境(Stress環境などがオススメです)に対して障害起こします。それをどう復旧するかを訓練するといったプログラムです。

 
効果としては下記を仮説としていました。

<img alt="" height="379" src="https://image.dmm-corp.com/8v8za0ij40wp8lblc7a1n9cwou2t" width="700" />

<h3 id="Disaster-in-recovery-trainingの実施方法">Disaster in recovery trainingの実施方法</h3>

Disaster in recovery trainingを実施するには、3つのステップを踏む踏む必要があります。

<img alt="" height="389" src="https://image.dmm-corp.com/8tv4flirwmz18mkrwberdlpawpvh" width="700" />

<h4 id="実施前--シナリオ作成">実施前&nbsp;: シナリオ作成</h4>

まず、障害となるシナリオを作成します。これは当日まで障害対応者には秘密です。シナリオのイメージとしては、たとえば下記のようなものです。

<img alt="" height="389" src="https://image.dmm-corp.com/6p3gzvdd88wl5w3lqx1a7sfmmd52" width="700" />

注意点として、作成したシナリオが実際の環境に対して当日に障害を起こせるかを十分に確かめておきましょう。

<h4 id="実施中--対応プロセスを記録する">実施中&nbsp;: 対応プロセスを記録する</h4>

<img alt="" height="389" src="https://image.dmm-corp.com/hnxrnlkugpaxny4mds0aiih6poxw" width="700" />

障害シナリオをもとに障害訓練を実施中は、チームがどういった動きをしているかを必ず記録していってください。 
この記録から障害に対してどういった問題点があるかを明らかにしていきます。 
たとえば、下記のようなやり取りがあったとします。

<img alt="" height="439" src="https://image.dmm-corp.com/cqwm5ffoopeuph8xateu1iqozrow" width="600" />

 
上記のようなプロセスを取ることで、下記の問題点が可視化されます。

★Aさん、Cさんによる単独的な行動が可視化され報連相の粒度・質・タイミングの改善ポイントが見える。

上の場合は、まずインシデント対応者のリーダーであるBさんが状況を詳細に把握して体制を組むべきと考えます。それから人的リソースがどのくらい必要になるのかを判断し、適切にインシデント対応者をアサイン、原因追求の分担を行うような流れが良いと考えます。

<h4 id="実施後--振り返り">実施後&nbsp;: 振り返り</h4>

障害が無事復旧したら、チームで振り返りを行います。 
オススメのやり方は下の2つです。 
①対応プロセスの読み合わせ 
②KPT

<img alt="" height="381" src="https://image.dmm-corp.com/mkjc9t035j8qh1n1un1kpkm9xwxb" width="700" />

対応プロセスの読み合わせを行うことでいろいろな問題点が浮かび上がってくると思うので、それを次のTryへと結びつけていくといったイメージです。

<h3 id="まとめ">まとめ</h3>

Disaster in recovery trainingの実施までの流れを抑えてきました。 
自チームでは、約6回行ってきた結果は下記となりました。

<img alt="" height="281" src="https://image.dmm-corp.com/z657i8lcrbw1cwxbaw3o51jo4pha" width="450" />

もちろん、障害シナリオの難易度によって復旧時間に変動はありますが、おおよそ復旧時間が短縮へと向かいました。実際の効果として主に学習できたと感じ部分は以下の2点です。

① 報連相の重要性 
チームとして障害に対して向かい合うには、メンバー単独行動は危険です。障害対応こそチームワークを大事にし、自分が何をしていて何をするべきなのかをリアルタイムでチーム全員に相談しながら復旧対応にあたることが次第に徹底されてきました。

② 一時復旧の重要性 
どうしても復旧作業に集中するとユーザーへの配慮が抜けがちになります。 
障害が起こった時に最初に目指すべきは一時復旧です。 一時復旧でユーザがサービスを使えるようにされできれば、あとはゆっくり残作業を行えば良いのです。そこをチームとして理解し、目指せるようになったことは大きな成果だと感じています。

今回は、障害への向き合い方として『Disaster in recovery training』というアプローチ方法を紹介させていただきました。 ぜひ、皆さんのチームでも試してみてください。

&nbsp;

プラットフォーム

【SRE】サービス稼働率Downを防ぐ！『Disaster in recovery training』というアプローチ方法について

facebook

twitter

DMM TV

DMMブックス

DMM pictures

DMM GAMES

DMMオンクレ

DMMスクラッチ

DMMくじ

DMM Factory

ぷらさぷ ～＋SURPRISE～

DMMオンラインサロン

DMMいろいろレンタル

DMM DVD／CDレンタル

DMM通販

DMMオンラインクリニック

デジタルコミック事業

DMMチャットブースト

DMM英会話

DMM FX

DMMかりゆし水族館

ベルリング

ハッシャダイソーシャル

ヤンキーインターン

シント=トロイデンVV

DMM 地方創生

DMM.make 3Dプリント

DMM.make PRODUCTS

Seamoon Protcol by DMM Crypto

DMMバヌーシー

DMM EV ON

DMM WEBCAMP

DMMぱちタウン

DMM競輪

Waitinglist

Algoage

DMMポイントクラブ

社会課題

エンターテインメント

動画

電子書籍

アニメ

ゲーム

アプリゲーム

コミュニティ

オンラインサロン

PCゲーム

通販

レンタル

オンラインイベント

ビジネスソリューション

教育

英会話

水族館

ハードウェア・プロダクト

救急車両

消防車両

モノづくり施設

サッカー

スポーツ

地方創生

VR体験

Web3

生成AI

研究開発

アプリ

ブロックチェーン

横断開発

社会インフラ

アミューズメント

ダイバーシティ

同人

Webエンジニア

フロントエンドエンジニア

バックエンドエンジニア

サーバーサイドエンジニア

モバイルエンジニア

SRE・インフラエンジニア

情報システム

データ・AI・機械学習エンジニア

エンジニアリングマネージャー

テックリード

プロジェクトマネージャー・ディレクター

プロダクトマネージャー

事業開発・経営企画

営業

マーケティング・プロモーション

企画・プロデュース

ゲーム企画・プロデュース

コンテンツ制作・編集

カスタマーサポート・運営

データ分析・ストラテジー

UI・UXデザイナー

Webデザイナー

2Dデザイナー・イラストレーター

デザインマネージャー

デザインリード

【SRE】サービス稼働率Downを防ぐ！『Disaster in recovery training』というアプローチ方法について

シェア

関連する求人

関連する記事