リクルートのビッグデータ分析基盤ができるまで、事業部門と開発部門が共に奮闘:事業部門と開発部門が持つデータ活用視点の違い(1/2 ページ)
リクルートのサービスで共通に使われる「リクルートID」。ここに集まる膨大なデータを同社はどのように収集、分析し、活用基盤を構築しているのか。機械学習の結果を現場で生かす上での苦労と併せて紹介する。
関連キーワード
IBM(アイ・ビー・エム) | Microsoft Azure | Watson | IaaS | Hadoop | Microsoft Band | PaaS | ビッグデータ | クラウドコンピューティング | クラウドサービス | データ分析
「ホットペッパー」や「じゃらん」「ゼクシィ」「リクナビ」など数多くの人気サービスを手掛けるリクルートグループ。これらのサービスを支えるデータ基盤と機械学習について、2017年10月に都内で開催されたデータ活用関連イベント「Data Platform Conference 2017」のセッションで当事者が語った。同セッションでは、リクルートグループがどのようにユーザーデータを活用してきたかについて、同グループのシステム開発を手掛けるリクルートテクノロジーズが紹介。事業部門と開発部門とのすり合わせの歴史であり、現場でデータを活用する際に必要な示唆に富んだものだった。
併せて読みたいお薦めの記事
「Data Platform Conference 2017」レポート
主要クラウドのデータ分析サービス
- ビッグデータでも負けられない戦い AWS、Azure、Googleの関連サービスを比較する
- GoogleやAWSが提供する機械学習サービス、ビジネスにどう活用する?
- ビッグデータを高速分散処理するSparkをAWSで動かすと何がすごいのか
クラウドを活用したデータ処理の事例
ライフイベント、ライフスタイルに関わるサービスを横断分析可能
同セッションには、リクルートテクノロジーズのITソリューション統括部から2人の話者が登壇した。リクルートのビジネスモデルと横断データ基盤を紹介する前半を担当したのは、渡部 徹太郎氏だ。
リクルートグループの事業領域は主に2つに分けられる。進学や結婚など人生のあらゆるシーンをサポートするライフイベント事業、もう1つは旅行や美容などのライフスタイル事業だ。いずれにおいても共通するのは「エンドユーザーとクライアントがいて、それをいかにうまくマッチングさせるかということに注力している点です」と渡部氏は説明する。
より良いマッチングのために「集客力の向上」「ポイント制度の採用」「マッチング率向上施策の実施」「顧客セグメントレポートを活用したデータ主導の意思決定支援」の4プロセスを最適化しつつ運用する。それが渡部氏らに課された任務だ。そもそもリクルートテクノロジーズは、リクルートグループを横断する組織として生まれた。リクルートグループが提供するサービスに共通で使われる「リクルートID」をベースに、Webサイトを横断的に分析、共通ポイントの付与やサービス間のクロス送客をする組織だ。「そのためにグループ横断で使えるビッグデータの収集、分析、活用基盤を構築し、運用しています」(渡部氏)
リクルートグループはそのデータ分析基盤を使い、じゃらんなどリクルートグループが提供する各サービスのWebアプリケーションからマスターデータとユーザーの行動データを収集、蓄積している。収集したデータは、プログラミング言語「Python」で開発したプログラムなどを使って加工し、データ活用のためのアプリケーション(以下、データアプリケーション)に出力する。データアプリケーションでそのデータを可視化できるようにした他、それぞれの事業部門がビジネスインテリジェンス(BI)ツールからデータ分析基盤へアクセスしたりレポートを作成したりできるようにすることで、データドリブンな意思決定を支援する。
現在、データ分析基盤では50種類以上のサービスから2PB程度のデータを集めているという。データベースの数は160件、テーブルは8000件、サーバが200台という規模だ。そこで実行するジョブは1万件を超え、毎月1億クエリを処理している。約400人が利用し、データアプリケーション開発には87人が携わっている。
データ分析基盤の中心となっているのは、Oracleのデータベースサーバ専用機「Oracle Exadata Database Machine」(以下、Exadata)だ。Webブラウザから収集したデータをExadataに取り込み、個人情報のマスキングや名寄せをする。Adobe SystemsのWeb分析サービス「Adobe Analytics」を使って行動分析した結果をさらに機械学習で分析(属性推定)し、年齢や性別などの属性を推定し、それに応じてWebサイトのUI(ユーザーインタフェース)/UX(ユーザー体験)を改善する。これがパーソナライズやレコメンドの基本的なパターンだ。
複数のWebサイトを横断したデータ基盤なので「AというWebサイトに始めてアクセスする人であっても、BというWebサイトの利用歴から属性を推定し、ユーザーの意向に沿った情報提供が可能になります」と渡部氏は説明する。
データ分析基盤は十分に完成したシステムに思えるが、まだ課題は多いという。例えば「Amazon S3」の行動データ取得に時間がかかり過ぎていたり、スマートデバイスにインストールして使うネイティブアプリから情報を集め、処理する方法が定まっていなかったりする。ユーザー増加やビッグデータ活用の広まりによる計算量の増大も課題だ。個人情報を扱うデータウェアハウスと機械学習は現在オンプレミスで運用しており、拡張性に限界を感じているという。
データガバナンスのポイントを3点に絞って実例を紹介
Copyright © ITmedia, Inc. All Rights Reserved.