ビッグデータ分析システム「IDAP」を運用するNTTドコモは、システムのインフラに「AWS」を利用していたが、新たにGoogleの「BigQuery」を採用した。BigQueryを採用して得られた効果と、AWSとGCPを併用する理由とは。
NTTドコモはビッグデータ分析システム「IDAP」(Integrated Data Analytics Platform)を2014年から運用している。IDAPで扱うのは、同社が通信事業で収集した通信エラーログや通信速度などのネットワークデータと、スマートライフ事業の「dポイントクラブ」「dTV」といった各種サービスから収集した会員情報や決済履歴などのデータだ。運用開始から2021年現在までの累計で約2500人の従業員が利用し、1日当たり50TBのデータを処理する。保有データは年々増加しており、2021年時点でデータの保有量は5PBに達した。IDAPの稼働開始当初はオンプレミスインフラとAmazon Web Services(AWS)のクラウドサービス群を組み合わせて運用していたが、2020年10月からGoogleのクラウドデータウェアハウス(DWH)「BigQuery」を導入し、2021年7月に実運用を開始した。
NTTドコモはIDAPの稼働開始当初から現在も、AWSのクラウドDWH「Amazon Redshift」を利用している。NTTドコモでIDAPの開発と運用を担当する林 知範(とものり)氏によると、同社は2017年にIDAPのインフラを拡張した際に、BigQueryをはじめとするGoogleのクラウドサービス群「Google Cloud Platform」(GCP)の利用を検討した。だが「当時は性能やセキュリティ機能の要件を満たしていなかったことから採用には至りませんでした」と林氏は明かす。
従来のIDAPにおいて課題となっていたのが、同システムで扱うデータ量の急激な増加だ。NTTドコモはIDAPを大量のデータ分析に適したシステムに拡張するために、クラウドDWHの再検討を開始した。BigQuery導入の再検討に当たっては、クエリの並列処理機能で高速なデータ処理を実現できる点を評価した。IDAPにはデータ加工からロードまでのETL(抽出、返還、読み込み)処理といった運用面のワークロード(アプリケーション)と、IDAPユーザーの定期的または一時的なデータ分析ワークロードが存在する。「常時複数の処理プロセスが動いていることから、これらを同時に処理する能力が求められます」と林氏は説明する。地理空間分析機能「BigQuery GIS」、機械学習の実行機能「BigQuery ML」などの機能を備えている点も選定を後押しした。
膨大なデータを扱うIDAPの中には、社外に公開できない重要なデータが含まれている場合がある。そのためNTTドコモは、IDAPを構成する製品/サービスに厳格なセキュリティ要件を課している。BigQueryの場合、セキュリティ要件はネットワーク分離サービスの「VPC Service Controls」やアクセス制御サービスの「Identity and Access Management」(IAM)など、再検討時点で利用可能だったGCPのサービスで満たせたため、これらと併せてBigQueryの採用に至った。
IDAPで扱うデータは閉域網で送受信されている。NTTドコモはVPC Service Controlsを使い、BigQueryやオブジェクトストレージサービス「Cloud Storage」をはじめとした各種GCPサービスへのアクセスを制限している。NTTドコモが承認していないネットワークからのアクセスがあった場合、遮断する仕組みだ。承認済みネットワーク以外の経路からの接続を遮断することで、情報漏えいを防ぐ。既存のオンプレミスインフラとの接続にはGoogleの閉域網サービス「Cloud Interconnect」を利用する。GCPインフラとAWSインフラの接続は、オンプレミスインフラが中継する形で経路を構築した(図)。
NTTドコモはIDAPを利用する際、用途に合わせてBigQueryとAmazon Redshiftを使い分けており、「全体で6~7割ほどのデータをBigQueryで処理している」(林氏)。完全にGCPへ移行せず、AWSの利用を継続するのはなぜか。それはGCPとAWSそれぞれのメリットを生かすためだ。NTTドコモは既にさまざまな用途でAWSを利用しており、データソースがAWSにある場合は、データ転送コストを抑えられるAmazon Redshiftを継続して利用している。一方でコストや処理速度の面でBigQueryが適している場合は、Amazon RedshiftではなくBigQueryを利用しているという。
林氏はBigQueryの利用において、現段階での課題は「特にない」と話す。期待を寄せるGCPの機能として、BigQuery MLを挙げる。BigQuery MLはデータベース言語の「SQL」で機械学習モデルを作成したり、実行したりすることが可能だ。「IDAPを使う従業員の中には、SQLを利用できるデータ分析者が多くいます」と同氏は言う。IDAPユーザーがSQLで機械学習を実行できるようにすることで、データ分析手法として機械学習を活用するハードルを下げられると同氏は考える。
NTTドコモは定期的にBigQueryのベンチマークテストを実施し、ビッグデータの処理速度のさらなる向上に向けてグーグル・クラウド・ジャパンに継続的に改善要望を出す意向だ。IaaS(Infrastructure as a Service)やPaaS(Platform as a Service)はサービスの種類が充実しつつある。NTTドコモが再検討の末にBigQueryを導入してメリットを引き出したように、一度採用を見送ったクラウドサービスでも、新たな課題が浮上したときに再考に値する可能性がある。
Copyright © ITmedia, Inc. All Rights Reserved.
契約業務の効率化やコストの削減といった効果が期待できることから、多くの企業で「電子署名」の導入が進んでいる。一方で、訴訟問題へと発展した際に証拠として使えるのかといった疑問を抱き、導入を踏みとどまるケースもあるようだ。
半導体ベンダーBroadcomは仮想化ベンダーVMwareを買収してから、VMware製品の永久ライセンスを廃止した。その永久ライセンスを継続する非公認の方法とは。
クラウドファーストの流れが加速する中、無計画に構築されたハイブリッドクラウドの弊害が多くの企業を悩ませている。ITオペレーションの最適化を図るためには、次世代のハイブリッドクラウドへのモダン化を進めることが有効だ。
ワークロードを最適な環境に配置できる手法として注目され、多くの企業が採用しているハイブリッドクラウド。しかし、パフォーマンス、法令順守、コストなどが課題となり、ハイブリッドクラウド環境の最適化を難しくしている。
システム基盤をオンプレミスで運用するか、データセンターやクラウドで運用するかは、業種によって大きく異なる。調査結果を基に、活用の実態を探るとともに、最適なクラウドサービスを考察する。
KDDIの通信品質と事業成長を支える“共通インフラデータ基盤”構築の舞台裏 (2025/3/12)
高まるSaaSバックアップ需要で「ストック収益」を拡大するには (2025/1/22)
大和総研に聞く、基幹システムのモダナイズ推進を成功に導いた四つのポイント (2024/12/23)
「オンプレミス仮想化基盤」のモダナイゼーションに最適なクラウド移行の進め方 (2024/11/11)
コストや効率の課題解消、ITとOTの統合運用管理を実現する理想的なインフラとは (2024/10/18)
お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。
「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年4月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...
Cookieを超える「マルチリターゲティング」 広告効果に及ぼす影響は?
Cookieレスの課題解決の鍵となる「マルチリターゲティング」を題材に、AI技術によるROI向...