<p>こんにちは！DMM.com Labo ビッグデータ部の 吉田 (&nbsp;<a href="https://twitter.com/ryysud" target="_blank">@ryysud</a>&nbsp;) です。</p>

<p>2017年8月25日(金) に開催されたパーソルキャリア株式会社主催の&nbsp;<a href="https://techplay.jp/contents/techplayconf2017" target="_blank">TECH PLAY Conference 2017</a>&nbsp;で<br />
鈴木 (&nbsp;<a href="https://twitter.com/i_szyn" target="_blank">@i_szyn</a>&nbsp;) と登壇してきました。</p>

<p>今回は、そこで発表した内容を資料公開も含めて報告させて頂ければと思います！</p>

<h2>イベント概要</h2>

<p>「テクノロジー」「デザイン」「ビジネス」の各領域での実践的な事例紹介を趣旨としたイベントとなっており、私たちは大規模Webサービスをテーマに開催された日の「ビッグデータを活用したWebサービスの技術」というセッションで発表させて頂きました。&nbsp;<a href="https://twitter.com/hashtag/techplayconf2017" target="_blank">#techplayconf2017</a></p>

<div data-oembed-url="https://techplay.jp/event/628968">
<div>
<div style="left: 0; width: 100%; height: 140px; position: relative;"><iframe allowfullscreen="" src="//if-cdn.com/3whkUA4?app=1" style="top: 0; left: 0; width: 100%; height: 100%; position: absolute; border: 0;" tabindex="-1"></iframe></div>
</div>
<script async="" charset="utf-8" src="//if-cdn.com/embed.js"></script>
</div>

<p>タイトルはこちら。</p>

<h3>DMM.comのビッグデータ基盤を支える技術</h3>

<p>弊社ビッグデータ部では、オンプレミス環境で Hadoop をベースとしたデータ基盤の保守運用を行っており、それに加えアドホック分析には Presto、エンジニア・アナリストが利用するBIツールとして Zeppelin / Re:dash、ETLにワークフローエンジンDigdagなど様々なOSSを積極的に採用し、より快適な分析基盤の構築に努めています。</p>

<p>今回の発表は、そんなビッグデータ基盤を支えている技術と活用事例について紹介させて頂きました！</p>

<h2>登壇資料</h2>

<p>当日ご参加いただい方もそうでない方も、是非ご覧いただければと思います。</p>

<div data-oembed-url="https://speakerdeck.com/dmmlabo/dmm-dot-comfalsebitugudetaji-pan-wozhi-eruji-shu">
<div>
<div style="left: 0; width: 100%; height: 0; position: relative; padding-bottom: 56.1972%;"><iframe allowfullscreen="" scrolling="no" src="//if-cdn.com/zABTvW5" style="top: 0; left: 0; width: 100%; height: 100%; position: absolute; border: 0;" tabindex="-1"></iframe></div>
</div>
</div>

<h2>補足</h2>

<p>ここからは資料公開後に Web で挙がった質問にお答えしていきたいと思います。</p>

<h4>なぜ CDH を利用しているのに Impala ではなく Presto を採用したのか？</h4>

<p>アドホッククエリエンジンは、下記のものを評価軸として選定を行いました。 （2016年2月初め頃です）</p>

<p><b>【 対象プロダクト 】</b></p>

<ul>
	<li>Impala</li>
	<li>Hive on Tez</li>
	<li>Drill</li>
	<li>Presto</li>
	<li>Presto on Yarn</li>
</ul>

<p><b>【 選定基準 】</b></p>

<ul>
	<li>複数データソース対応・耐障害性</li>
	<li>リソース管理機構 ◎</li>
	<li>低レイテンシ ◎</li>
	<li>Hive UDFサポート</li>
	<li>インターフェース(REST-API等) ◎</li>
	<li>運用</li>
	<li>CDHサポート</li>
	<li>コスト</li>
	<li>将来性</li>
</ul>

<p style="text-align:center"><img alt="" height="290" src="https://image.dmm-corp.com/q5fpwbia8x1fzao5m86i44vfo1zy" width="800" /></p>

<p>※実際に利用したシート</p>

<p>その中でも◎のものに重点を置き、各プロダクトに対して得点を付ける形で選定を行いました。</p>

<p>その結果、重点をおいた選定基準の得点が良かったのに加えて、複数データソースへの読み書きに対応しているという特徴から Presto を選定する判断に至りました。環境にもよると思いますが、私達の環境では受けられるメリットは大きいと感じています。</p>

<p>また、リソースに関してもCDHクラスタとは別に分けたいという希望があったため、Presto は別クラスタとして構築する形をとりました。</p>

<h4>なぜ CDH のワークフローエンジンではなく Digdag を採用したのか？</h4>

<p>CDH のワークフローエンジンの選択肢として、Oozie が存在していました。</p>

<p>当初 Jenkins から Ooize への移行プロジェクトが進む予定でしたが、 今後の拡張性も加味した結果「他の選択肢も入れても良いのではないか？」という声が挙がり、下記の選定基準を設けてワークフローエンジンの技術選定を開始しました。</p>

<p>&nbsp;</p>

<p><strong>【 選定基準 】</strong></p>

<ul>
	<li>処理フローをコードで管理</li>
	<li>処理が失敗したところからリトライ可能</li>
	<li>可用性</li>
	<li>スケーラビリティ（並列実行・分散処理）</li>
	<li>インターフェース(REST-API等)</li>
</ul>

<p>選定基準もクリアしており注目度が高いプロダクトで、なにより私自身興味を持ったことがきっかけで Digdag を選定しました。</p>

<h4>CDHクラスタ運用中にバージョンアップは行っていますか？</h4>

<p>はい。スライド内のCDHクラスタ移行プロジェクト以前にも何度かバージョンアップを行っております。 今回わざわざ別クラスタを立てて移行を行ったのは、以下の要因により管理コスト増加が懸念されたためです。</p>

<ul>
	<li>HDD と SSD が混在する形になるため StoragePolicy による管理が必要となる</li>
	<li>1Node あたりのディスク容量が異なる状況となる</li>
</ul>

<h4>リソース増強にあたって SSD から HDD への変更で何か影響はあった？</h4>

<p>今回は 57.5TB から 1.4PB へと大幅なリソース増強ということもあり、コスト面から HDD への換装という選択をしました。並行稼動中にジョブの実行時間を比較したところ、私達の環境では SSD から HDD への変更でパフォーマンスに大きな変化は見受けられませんでした。現在の本番稼働中においても特に影響はございません。</p>

<h2>所感</h2>

<p>今回の発表では、ビッグデータ部発足当初の基盤でどのような課題を抱えていて、それらの課題に対してどのような取り組みを行ってきたかをご紹介させて頂きました。</p>

<p>資料にもある通り、現在の基盤にも「リアルタイム性を重視したアーキテクチャになっていない」など様々な課題があるため、継続して改善に努めていきたいと考えております。</p>

<p>また、他の登壇者の方々の発表も非常に興味深いものばかりで良い刺激を頂いたので、私自身もビッグデータを活用して DMM のサービスをより盛り上げていこうと思いました！</p>

<p>今後も対外的に DMM.com ビッグデータ部での取り組みを媒体を問わず発信していきたいと思います！</p>

<p style="text-align:center"><img alt="" height="450" src="https://image.dmm-corp.com/g1gao8g417ydzlx98uviijzmsy3k" width="800" /></p>

<h2>さいごに</h2>

<p>9月14日 (木) に「IoT女子会♪～IoT&times;海外事情 フランス・イタリア編～」を弊社オフィスにて開催致します！ご興味あるかたはご参加頂ければと思います！&nbsp;<b>※女性限定です</b></p>

<p><a href="https://dmmcj.connpass.com/event/64624/" target="_blank">https://dmmcj.connpass.com/event/64624/</a><cite><a href="https://dmmcj.connpass.com/event/64624/" target="_blank">dmmcj.connpass.com</a></cite></p>

<p>また、業務拡大により弊社ビッグデータ部は非常に人員が不足しております(&acute;・&omega;・`)</p>

<p>多種多様な40以上のサービスを展開する DMM.com のデータが集約されているビッグデータ基盤を支える業務や、検索エンジンやレコメンデーションなどにビッグデータを活用する業務など、様々な経験を積むことが出来る環境が存在しております！</p>

<p>少しでもご興味のある方は、是非以下の採用ページをご覧になってみて下さい。</p>

<ul>
	<li><a href="https://dmm-corp.com/recruit/engineer/1789" target="_blank">ビッグデータ基盤インフラエンジニア（SRE） 中途採用ページ ｜ DMM.com Group</a></li>
	<li><a href="https://dmm-corp.com/recruit/engineer/2590?doing_wp_cron=1504078581.7178869247436523437500" target="_blank">検索システム開発エンジニア 中途採用ページ ｜ DMM.com Group</a></li>
	<li><a href="https://dmm-corp.com/recruit/engineer/2587?doing_wp_cron=1504078598.9503118991851806640625" target="_blank">レコメンドシステム開発エンジニア 中途採用ページ ｜ DMM.com Group</a></li>
	<li><a href="https://dmm-corp.com/recruit/engineer/1793" target="_blank">プロダクト開発エンジニア（アフィリエイト基盤） 中途採用ページ ｜ DMM.com Group</a></li>
	<li><a href="https://dmm-corp.com/recruit/engineer/1800" target="_blank">プロダクト開発エンジニア（メール基盤） 中途採用ページ ｜ DMM.com Group</a></li>
</ul>


DMMのビッグデータ基盤の裏側を大公開！CDHクラスタ移行・Presto導入・Digdag導入により得られた効果とは？

facebook

twitter

DMM TV

DMMブックス

DMM pictures

DMM GAMES

DMMオンクレ

DMMスクラッチ

DMMくじ

DMMオンラインサロン

DMMいろいろレンタル

DMM DVD／CDレンタル

DMM通販

DMMオンラインクリニック

デジタルコミック事業

DMMチャットブースト

DMM英会話

DMMかりゆし水族館

ベルリング

ハッシャダイソーシャル

ヤンキーインターン

シント=トロイデンVV

DMM地方創生

DMM.make AKIBA

DMM.make 3Dプリント

Seamoon Protcol by DM2C Studio

ONE DAY DESIGN

DMM WEBCAMP

DMMぱちタウン

DMM競輪

Algoage

DMM EV CHARGE

DMMポイントクラブ

社会課題

エンターテインメント

動画

電子書籍

アニメ

ゲーム

アプリゲーム

コミュニティ

オンラインサロン

PCゲーム

オンラインイベント

ビジネスソリューション

教育

英会話

水族館

救急車両

消防車両

モノづくり施設

サッカー

スポーツ

地方創生

Web3

研究開発

アプリ

ブロックチェーン

プラットフォーム

横断開発

インフラ

アミューズメント

同人

サーバサイド

バックエンド

フロントエンド

ネットワーク

セキュリティ

配信基盤

ペイメント

Android

データベース

ビッグデータ

フルスタック

データ分析

機械学習

プロトタイピング

グラフィックデザイン

3DCG

モーショングラフィック

プロダクトデザイン

コピーライティング

サービスデザイン

コンテンツ管理・制作

ブランディング

マーケティング

企画

編集

営業

プロモーション

DMMのビッグデータ基盤の裏側を大公開！CDHクラスタ移行・Presto導入・Digdag導入により得られた効果とは？

シェア