2021年12月06日 05時00分 公開
特集/連載

NTTドコモが「BigQuery」を導入した訳と、その後も「Redshift」を使い続ける訳ビッグデータ分析システムのインフラにGCPを採用

ビッグデータ分析システム「IDAP」を運用するNTTドコモは、システムのインフラに「AWS」を利用していたが、新たにGoogleの「BigQuery」を採用した。BigQueryを採用して得られた効果と、AWSとGCPを併用する理由とは。

[上田 奈々絵,TechTargetジャパン]

関連キーワード

Amazon Web Services | Google | データ分析 | IaaS


 NTTドコモはビッグデータ分析システム「IDAP」(Integrated Data Analytics Platform)を2014年から運用している。IDAPで扱うのは、同社が通信事業で収集した通信エラーログや通信速度などのネットワークデータと、スマートライフ事業の「dポイントクラブ」「dTV」といった各種サービスから収集した会員情報や決済履歴などのデータだ。運用開始から2021年現在までの累計で約2500人の従業員が利用し、1日当たり50TBのデータを処理する。保有データは年々増加しており、2021年時点でデータの保有量は5PBに達した。IDAPの稼働開始当初はオンプレミスインフラとAmazon Web Services(AWS)のクラウドサービス群を組み合わせて運用していたが、2020年10月からGoogleのクラウドデータウェアハウス(DWH)「BigQuery」を導入し、2021年7月に実運用を開始した。

 NTTドコモはIDAPの稼働開始当初から現在も、AWSのクラウドDWH「Amazon Redshift」を利用している。NTTドコモでIDAPの開発と運用を担当する林 知範(とものり)氏によると、同社は2017年にIDAPのインフラを拡張した際に、BigQueryをはじめとするGoogleのクラウドサービス群「Google Cloud Platform」(GCP)の利用を検討した。だが「当時は性能やセキュリティ機能の要件を満たしていなかったことから採用には至りませんでした」と林氏は明かす。

データ量の急増に伴い「BigQuery」を再検討

 従来のIDAPにおいて課題となっていたのが、同システムで扱うデータ量の急激な増加だ。NTTドコモはIDAPを大量のデータ分析に適したシステムに拡張するために、クラウドDWHの再検討を開始した。BigQuery導入の再検討に当たっては、クエリの並列処理機能で高速なデータ処理を実現できる点を評価した。IDAPにはデータ加工からロードまでのETL(抽出、返還、読み込み)処理といった運用面のワークロード(アプリケーション)と、IDAPユーザーの定期的または一時的なデータ分析ワークロードが存在する。「常時複数の処理プロセスが動いていることから、これらを同時に処理する能力が求められます」と林氏は説明する。地理空間分析機能「BigQuery GIS」、機械学習の実行機能「BigQuery ML」などの機能を備えている点も選定を後押しした。

 膨大なデータを扱うIDAPの中には、社外に公開できない重要なデータが含まれている場合がある。そのためNTTドコモは、IDAPを構成する製品/サービスに厳格なセキュリティ要件を課している。BigQueryの場合、セキュリティ要件はネットワーク分離サービスの「VPC Service Controls」やアクセス制御サービスの「Identity and Access Management」(IAM)など、再検討時点で利用可能だったGCPのサービスで満たせたため、これらと併せてBigQueryの採用に至った。

「Google Cloud Platform」と「AWS」を両方使う理由

 IDAPで扱うデータは閉域網で送受信されている。NTTドコモはVPC Service Controlsを使い、BigQueryやオブジェクトストレージサービス「Cloud Storage」をはじめとした各種GCPサービスへのアクセスを制限している。NTTドコモが承認していないネットワークからのアクセスがあった場合、遮断する仕組みだ。承認済みネットワーク以外の経路からの接続を遮断することで、情報漏えいを防ぐ。既存のオンプレミスインフラとの接続にはGoogleの閉域網サービス「Cloud Interconnect」を利用する。GCPインフラとAWSインフラの接続は、オンプレミスインフラが中継する形で経路を構築した(図)。

図 図 IDAPのシステム構成図(出典:NTTドコモ資料)《クリックで拡大》

 NTTドコモはIDAPを利用する際、用途に合わせてBigQueryとAmazon Redshiftを使い分けており、「全体で6〜7割ほどのデータをBigQueryで処理している」(林氏)。完全にGCPへ移行せず、AWSの利用を継続するのはなぜか。それはGCPとAWSそれぞれのメリットを生かすためだ。NTTドコモは既にさまざまな用途でAWSを利用しており、データソースがAWSにある場合は、データ転送コストを抑えられるAmazon Redshiftを継続して利用している。一方でコストや処理速度の面でBigQueryが適している場合は、Amazon RedshiftではなくBigQueryを利用しているという。

 林氏はBigQueryの利用において、現段階での課題は「特にない」と話す。期待を寄せるGCPの機能として、BigQuery MLを挙げる。BigQuery MLはデータベース言語の「SQL」で機械学習モデルを作成したり、実行したりすることが可能だ。「IDAPを使う従業員の中には、SQLを利用できるデータ分析者が多くいます」と同氏は言う。IDAPユーザーがSQLで機械学習を実行できるようにすることで、データ分析手法として機械学習を活用するハードルを下げられると同氏は考える。

 NTTドコモは定期的にBigQueryのベンチマークテストを実施し、ビッグデータの処理速度のさらなる向上に向けてグーグル・クラウド・ジャパンに継続的に改善要望を出す意向だ。IaaS(Infrastructure as a Service)やPaaS(Platform as a Service)はサービスの種類が充実しつつある。NTTドコモが再検討の末にBigQueryを導入してメリットを引き出したように、一度採用を見送ったクラウドサービスでも、新たな課題が浮上したときに再考に値する可能性がある。

ITmedia マーケティング新着記事

news056.jpg

マーケターの87%がサードパーティーCookie利用規制の影響を実感――イルグルム調査
広告主はWeb広告の効果においてCookieの利用規制の影響を感じているようです。

news122.jpg

2021年ホリデーシーズンにおける米国オンライン消費額、サプライチェーン危機にもかかわらず過去最大を更新
「Adobe Digital Economy Index」によると、米国の2021年のホリデーシーズンにおけるオン...

news014.jpg

「パーソナライゼーションエンジン」 売れ筋TOP10(2022年1月)
今週は、パーソナライゼーション製品の国内売れ筋TOP10を紹介します。