「ビッグデータ」の仕組みやメリット、課題とは?

ユーザー企業のIT担当者を対象に、IT製品/サービスの導入・購買に役立つ情報を提供する無料の会員制メディア「TechTargetジャパン」。このコンテンツでは、ビッグデータに関する技術解説の記事を紹介します。製品/サービス選定の参考にご覧ください(リンク先のページはPR記事を含みます)。

ビッグデータとは何か

 ビッグデータは、大量かつ多様なデータと、そのデータを高速で収集、処理、分析するための技術を指す。ビッグデータには構造化データと半構造化データ、非構造化データが含まれ、これらは機械学習や予測モデル、その他の高度なデータ分析アプリケーションで使用される。

ビッグデータ関連の技術解説

「ビッグデータ活用」を成功させる“実践のポイント”は?

ビジネスの意思決定にビッグデータを活用する際、その取り組みを成功させるポイントは幾つかある。どのような点から着手し、どのような点に気を付ければよいのか。課題とポイントを紹介する。

(2024/5/20)

医療データ基盤に「もう失敗しない」と意気込むNHS 何が問題だったのか?

NHS Englandは新しい医療データ基盤の構築計画を発表した。「公共の信頼を獲得できるよう、同じ失敗は繰り返さない」という意気込みの背景には、どのような出来事があったのか。

(2023/3/28)

「Apache Kafka」で実現したマルチクラウド対応のシステム連携

システム連携の課題は、相手のシステムにどう対応させるかにある。個別対応では開発リソースとコストがかかり過ぎる。OSSの分散イベントストリーミング基盤である「Apache Kafka」がそうした課題を解決する。

(2021/10/13)

成功の鍵は「ガバナンス」 6つのポイントを守ればデータ活用は失敗しない?

セキュリティとプライバシーの問題がビッグデータ活用の障壁になる可能性がある。これらを解決するための鍵を握るのがデータガバナンスだ。どうすればビッグデータ活用を成功させることができるのだろうか。

(2021/7/13)

「何を集めるか」がデータ活用の成否を分ける 9割の企業が悩む意外な要素は?

データ活用の目的を明確にすれば、どのようなデータを収集すればいいのかも見えてくる。ただし問題はそれだけではない。ビッグデータの活用に当たっては、企業はどのような課題を乗り越える必要があるのか。

(2021/7/6)

ビッグデータの価値は量ではなく「正しい意思決定」 引き出す方法は?

ビッグデータをビジネスの意思決定に生かすには、必要なデータを効果的に収集する仕組みが不可欠だ。ビッグデータ活用を失敗させないために、まずどのような点から着手すればいいのか。

(2021/6/29)

医療機関がコロナ対策に「Apache Kafka」を活用 ストリーム処理の実力は

ストリーム処理を実現する「Apache Kafka」は、どのような場面で役立っているのか。米国における新型コロナウイルス感染症の臨床実験データ収集プロジェクトでの活用事例を紹介する。

(2020/11/12)

ブロックチェーン基盤は2年以内にリプレースが必要

宣伝文句が先行した結果、ブロックチェーンの周辺ではさまざまな問題が生じている。Gartnerは、安全性を確保し、陳腐化を防ぐためにブロックチェーン基盤のリプレースが必要と主張している。

(2019/7/29)

GPUデータベースとは CPUとの比較で分かるビッグデータ並列処理

データを処理する新しい方法としてGPUデータベースの活用が始まっている。ビッグデータの並列処理を中心に話を聞いた。

(2018/6/18)

自動運転車が「お先にどうぞ」と合図を送ってくる未来は来るのか?

自動運転車は既に素晴らしい成果を挙げているが、他のドライバーへの動作による合図はまだ実現できていない。この問題は解決する必要があると、MIT Disruption Timeline Conferenceで専門家が指摘した。

(2017/6/22)

機械が人間に、人間が機械に? IoTで突きつけられる4つの問い

「モノのインターネット」(IoT)により、生活は便利になり、ビジネスにさまざまな良い効果が生まれている。だが、IoTによって新しく考えなければいけない課題がある。

(2016/7/12)

「R」だけじゃない、使えるオープンソースのデータ可視化ツール

オープンソースのデータ可視化技術が成熟化し、ユーザーは、「現在入手可能なツールは多様な可視化ワークロードに対応できる」と歓迎している。

(2015/10/5)

医療ビッグデータの意義が分かる5つの「V」

さまざまな定義が存在するビッグデータ。医療・ライフサイエンスのエキスパートは、医療ビッグデータでは5つの「V」が重要になると語る。医療ビッグデータを支えるインフラ基盤を探る。

(2015/5/20)

ビッグデータブーム、“オワコン”を超えて生まれる実用技術の今

過大な期待が寄せられたビッグデータのブームが終了し、実用的な技術が次々に登場している。データ分析のトレンドや技術の最新動向を紹介する。

(2015/1/16)

信じていたら要注意、ビッグデータに関する撲滅すべき8つの迷信

ビッグデータがこれだけ取り沙汰されているにもかかわらず、多くの人々にとって実態のよく分からないものになっている。米Gartnerのアナリストがビッグデータにまつわる事実と迷信を区別する。

(2014/10/31)

IT導入でがっかりしないための「データ保護&活用ツール購入ガイド」

情報システムにおいて最も重要なのはデータだ。そのデータを保護し、活用するための最新トレンドやツールを紹介する。

(2014/10/1)

生活に入り込む「人工知能」、Apple「Siri」の進化は?

未来の技術といわれていた“認識コンピューティング”は米Appleの「Siri」や米IBMの「Watson」などの先行技術の登場で急速に実用化しつつある。どのような世界が実現されるのだろうか。

(2014/6/9)

徹底入門:小売業で大切なバリューチェーン最適化 そのポイントとは?

小売業を支えるバリューチェーン。そこでは、顧客情報や商品情報などさまざまなデータが日々蓄積されている。そうしたデータを適切に管理、活用することで、バリューチェーンの効率化と利益の増大へとつながる。

(2014/1/20)

激増するビッグデータ用データに苦慮するユーザーたち

ビッグデータ分析では、バックエンドインフラをアプリケーションのニーズに合わせる従来型のアプローチを改める必要がある。

(2013/11/8)

PayPalが明かす、非構造化データ活用に必要な3つの要素

米PayPalが抱えるデータの99.9%は、テキストや画像などの非構造化データだという。同社の主席データサイエンティストが、非構造化データ活用の際に重要になる要素を示す。

(2012/11/26)

ビッグデータの用途と6つの「V」を解説

ビッグデータはどのように使われているのか

 企業はビッグデータをシステムに組み込むことで、業務効率を向上させたり、より良い顧客サービスを提供したり、顧客一人一人にパーソナライズした販促キャンペーンを実行したりできる。

 ビッグデータを効果的に利用する企業は、事業判断のスピードと正確性を向上させて、競争力を高められる可能性がある。例えばビッグデータは、顧客に関する貴重な洞察を提供する。こうした洞察は企業のマーケティング活動を洗練させて、顧客の満足度を向上させるために利用できる。過去のデータとリアルタイムのデータの両方を分析することで、消費者や顧客企業の需要の変化を評価して、すぐにその需要に合わせられるようになる。

 医師は疾患の兆候とリスクを特定したり、診断を補助したりするためにビッグデータを利用できる。感染症対策にも有用だ。医療機関や電子健康記録やソーシャルメディア、Webサイト、その他の情報源からのデータを収集して組み合わせて分析することで、感染症の発生状況や患者者数の予測ができる。

 他にもさまざまな業界でビッグデータが使われている。

  • 石油会社やガス会社は、資源の掘削ができる新しい場所の特定や、パイプラインの運用監視のためにビッグデータを利用している。
  • 金融サービス企業は、ビッグデータを利用してリスク管理や市場データのリアルタイム分析を実施している。
  • 製造業者や輸送会社は、サプライチェーンの管理や配送ルートの最適化のためにビッグデータを利用している。

ビッグデータに含まれるデータの種類とは

 ビッグデータは、取引処理システムや顧客データベース、電子メール、医療記録、インターネットのクリックログ、モバイルアプリケーション、ソーシャルネットワークなど、さまざまなデータ源から生じる。テキスト形式のデータに加えて画像や動画、オーディオファイルもまた、ビッグデータの形態だ。

 ネットワークやサーバのログファイル、製造機械、IoT(モノとインターネット)デバイスからのセンサーデータなど、機械が生成するデータもビッグデータに含まれる。組織の業務システムが取得したデータに加えて、金融市場や気象、交通状況などに関する統計データや地理情報、科学研究など、組織外から取得したデータをビッグデータとして扱うこともある。

ビッグデータの「V」とは何か

 ビッグデータを表す3つのVという概念がある。3つのVは、それぞれ以下の意味を持つ。

  • Volume(データの量)
    • データの量を指す。ビッグデータは膨大な量のデータを扱うことが特徴で、データ量がテラバイト(TB)からペタバイト(PB)、さらにはエクサバイト(EB)規模に及ぶことがある。
  • Variety(データの種類)
    • データの種類の多様性を指す。ビッグデータは表形式のデータなどの構造化データとログファイルやJSON形式のデータなどの半構造化データ、テキストや動画などの非構造化データの全てを含む。
  • Velocity(データの速度)
    • データの生成、収集、処理の速度を指す。ビッグデータシステムはリアルタイムまたはほぼリアルタイムでデータを生成、収集し、迅速に処理や分析を必要がある。

 3つのVは2001年に調査会社META Groupのアナリストだったダグ・ラニー氏が提唱した。最近ではデータの正しさ(Veracity)や価値(Value)、変動性(Variability)など、他のVを追加して、ビッグデータについて説明することもある。これらのVには以下の意味合いがある。

  • データの正しさ(Veracity)
    • 真実性は、データセットの精度と信頼性を指す。さまざまなソースから収集されたそのままのデータは、データ分析のときに問題を引き起こす可能性がある。そのデータをデータクレンジング技術で修正することで、分析精度と信頼性を向上できる。
  • 価値(Value)
    • 収集されたデータの全てが、実際のビジネスで価値を持つわけではない。組織はビッグデータ分析プロジェクトでデータを使う前に、プロジェクトで解決したい課題にそのデータが関係していることを確認する必要がある。
  • 変動性(Variability)
    • 収集するデータの変動の大きさや不規則性を指す。具体的には、データが時間の経過とともにどのように変動するか、または一貫性を欠くパターンを示すかを意味する。変動性の高いデータを扱う場合は、その不規則性に対処する必要があるため、ビッグデータの管理と分析を複雑にする。