DMM.comの、一番深くておもしろいトコロ。

DMMの屋台骨を支える!年間1000億円のクレジットカード決済基盤メンテナンスの裏話

DMMの屋台骨を支える!年間1000億円のクレジットカード決済基盤メンテナンスの裏話

  • このエントリーをはてなブックマークに追加

 

こんにちは! DMM Inside編集部です。

今回は、現在3196万人の会員が利用するクレジットカード決済基盤のメンテナンスを行った「 PCI DSS 移行チーム」にインタビューしました。
どんな環境で、どんなメンバーが、どんな壁に立ち向かったのか!? その内情に迫りたいと思います! 

f:id:hoshi-hitomi:20191121115900j:plain

左から、アーロン、ノリコ、荒井、天川、山本政、関

 

中谷/天川/山本政

プラットフォーム事業部ペイメントサービス部(以下PF)所属。決済アプリを担当。

アーロン/ノリコ

EC&デジタルコンテンツ本部海外事業部(以下海外事業部)所属。決済アプリを担当。

荒井/関

ITインフラ本部セキュリティ部(以下セキュリティ部)所属。インフラを担当。

 

まずは、このプロジェクトでどのようなことを実施したのか、また、それを行うことになった背景を教えてください。

荒井:クレジットカード決済基盤システムのハードウェアリプレイスと、それに伴うDBの移行を行いました。

背景としては、今まで設備が入っていたデータセンターを、他のシステムも含めてまとめて新しいデータセンターへ移転することでコストダウンを図りたい、というのがこのプロジェクトの当初のきっかけでした。

基盤が古くハードウェアの保守も切れそうになっていたため、この機にまとめてリプレイスをしたい、というタイミングとも重なり、話がトントン拍子に進み実施が決まりました。

天川:ごく一般的な決済機能なので技術的に難しいところは少なかったのですが、ミッションクリティカルなシステムなので、監視機能やセキュリティ面の要件は厳しめに設定をしました。

ノリコ:また、メンテナンス時間は可能な限り短期間で行う必要がありました。ユーザ影響が最も少ない曜日と時間を過去の傾向から洗い出して、深夜に作業を行うことになりました。

プロジェクト内での皆さんの役割はどのようなものですか?

荒井:セキュリティ部がインフラを担当し、PFと海外事業部がアプリを担当しました。
また、影響の大きい全社アプリの検証は各事業部の皆さんに協力をお願いしました。基盤を利用していた事業部が25事業も存在していたため、全社調整もかなりの工数が必要でした。

大変だった点・こだわった点などあれば教えてください。

アーロン年額1000億円の弊社クレジット決済すべてを処理するシステムであり、社内外ふくめて利用者は多く、ミスが許されないミッションでした。

山本政:リハーサルを兼ねてSTG環境で作業した際に想定していない問題が多発したため、本番での作業も慎重に慎重を重ねて行うようにしました。また、ほぼ全事業部に影響するため、関係者への説明会を実施したり当日の動作確認をお願いしたりと、調整に非常に手間が掛かりました。

f:id:hoshi-hitomi:20191121120419j:plain

本番作業は順調に対応できましたか?

山本政:万全の体制を整えて作業を実施しましたが、DB移行で問題が発生しました。わずかですが処理が通常よりも処理に時間が掛かることが判明し、そのままではピーク時の負荷に耐えられない可能性があることが分かりました。現場で必死の原因調査を行いましたが、予定していたメンテナンス時間中では原因が分からず、止むを得ず切り戻しを行いました。

ノリコ:後日、チーム全員で振り返り会を行い、その際に切り戻しの原因となったDBの問題についても話し合いました。検証環境では出ていなかった問題がなぜ本番で出たのか。結果、DBの移行方法に問題があることが分かりました。

荒井:問題が出ないよう手順を変更し、想定した性能が出ることを確認し、再度メンテナンスの日程について全社調整を行いました。事業部の皆さんも巻き込んで何度も深夜作業をすることになってしまい申し訳なかったですが、非常にスムーズに対応いただき、とても助かりました。

天川:そして二度目の作業の当日、プロジェクトを先導してくれていたPO(プロダクトオーナー)の中谷さんがまさかの不在(一同笑)。

ノリコ:地元に戻る予定が前々からあったと言っていましたので、仕方ないですね。

山本政:ちなみに、今日はぎっくり腰でお休みです。仰向けに寝られないそうですよ。かわいそうに…。

アーロン:不在による不安はありましたが、二度目の作業は無事に成功させることができました。

では次に、良かった点について教えてください。

アーロン:まずは、作業に伴うクレームがなかったことかと思います。

天川:併せて、切り戻しは行いましたが、それを予定どおり計画的に、ユーザーに影響なくできたことも良かったです。ユーザからの問い合わせも無く、サポートさんからもお褒めの言葉をいただけました。ここは自信をもって誇れる点です。

ノリコ:また、以前は取れてなかったログを取れるようになりました。詳細は言えませんが、前より詳細な監視ができるようになりました。

:環境を自分たちでイチから作ったため、内部の構造をより深く把握できるようになった、というのもあると思います。

荒井:そして何より、プロジェクト中に発生した様々な問題についてセキュリティ部/PF/海外事業部で組織の枠組みを超えてチームとして対応を進めることができた点です。

移転後の反響や成果などはありましたか?

アーロン:移転後の反響はあまりありませんが、それこそ本来あるべき姿だと思っています。

:成果について言えば、移転したことでシステムの状況が見えるようになり、運用を整理しやすくなりました。アラートの閾値調整やログの制御など、まだまだ運用は落ち着いていない点も多いのですが、コントロールできる箇所が増えたのも成果かと思います。

山本政今後はログからさらにパフォーマンスや安定性を向上させていきたいです。 

f:id:hoshi-hitomi:20191121121216j:plain

さいごに

DMM.comでは一緒に働いてくれる仲間を募集しています。ご興味のある方はぜひ下記募集ページをご確認ください!

・セキュリティ部
セキュリティ部 オープンポジション | DMM.com Group

・海外事業部
フルスタックエンジニア | DMM.com Group
リードエンジニア | DMM.com Group

・ペイメントサービス部
ペイメントサービス開発エンジニア | DMM.com Group