「ビッグデータ」のノウハウ、賢い使い方のヒント

ユーザー企業のIT担当者を対象に、IT製品/サービスの導入・購買に役立つ情報を提供する無料の会員制メディア「TechTargetジャパン」。このコンテンツでは、ビッグデータに関する運用&Tipsの記事を紹介します。製品/サービス選定の参考にご覧ください(リンク先のページはPR記事を含みます)。

ビッグデータとは何か

 ビッグデータは、大量かつ多様なデータと、そのデータを高速で収集、処理、分析するための技術を指す。ビッグデータには構造化データと半構造化データ、非構造化データが含まれ、これらは機械学習や予測モデル、その他の高度なデータ分析アプリケーションで使用される。

ビッグデータ関連の運用&Tips

英国政府“データ分析に3000億円投資”を後押しした「国家データ戦略」の4本柱

データ分析分野における製品/サービスの調達を加速させる英国政府。どのような観点から、何を重視して製品/サービスの導入を進めようとしているのか。

(2023/1/23)

Salesforceも「データの倫理的活用」に本腰 原則を現場に落とし込む方法とは?

経営層がデータを倫理的に扱うと決めても、現場にその意図が伝わらなければ意味がない。どのようにすればよいのか。Salesforceをはじめとする先駆的企業の取り組みを基に考える。

(2021/4/13)

“取りあえずデータ収集”の落とし穴 「警察や検察へのデータ開示」が招く問題

「いつか何かに使うかもしれない」といった考えで、目的が不明瞭なまま集められるだけのデータを取得しようとすることは望ましいことではない。そうした企業は、大きな代償を払うことになる可能性があるからだ。

(2021/3/29)

「法律に違反しないデータ収集」なら何をしても許されるのか?

個人情報などのデータを収集する上でコンプライアンスは間違いなく重要だ。だが法律に違反しないデータ収集であれば問題は一切ないのか。データ保護やデータプライバシーをコンプライアンスと倫理の両面で考える。

(2021/3/22)

「Kindle Unlimited」の限界と可能性 ヒットメーカーは編集者からAmazonに?

書籍の読み放題サービス「Kindle Unlimited」は幾つかのハードルを抱えるものの、Amazon.comにさまざまなメリットをもたらす。出版業界の慣行を変え得る、そのメリットとは。

(2021/3/10)

データサイエンティストのスキル不足は大問題、「技術についていけない」の声も

多くの企業は、今日のビッグデータとデータサイエンスがもたらすチャンスを認識しているが、一方でそのエコシステムの複雑さに手を焼いている。

(2017/3/6)

「トランプ大統領誕生」をデータ分析の専門家はなぜ予測できなかったのか

米大統領選でのドナルド・トランプ氏の予想外の勝利を受け、メディアや世論調査会社はデータ分析に失敗した原因の検証を進めている。

(2016/11/24)

企業のデータサイエンスチームに“完璧な人材”が不要である理由

企業がデータサイエンスチームを形成するときには、希少価値の高い人材を求めるよりも、さまざまなバックグラウンドを持った人材を確保すべきだ。

(2016/5/30)

膨大な詐欺行為と戦うPayPal、決め手はオープンソースと“好奇心”

PayPalは、高度な予測データ分析を使用してユーザーを不正行為から保護し、PayPalのブランドを維持している。常に進化することがPayPal成功の鍵を握っている。

(2016/2/12)

“独善”データサイエンティストが陥る6つの勘違い

現代IT技術で注目のビッグデータで要となるデータサイエンスチームは最も花形のセクションだ。優柔な人材が集まってくるが、それだけに、自らの誤りに気付かないままビジネスを窮地に追い込むこともある。

(2016/2/5)

2016年こそデータ分析に成功したい企業に贈る、5つのお約束

2016年に分析プログラムを洗練させるための注意事項は何だろうか。本稿で紹介するリストに従えば、2016年に分析で成功を収められること請け合いだ。

(2016/1/19)

「ブラックジャック」に学ぶ、ビジネスで負けない意思決定とは?

直感とデータドリブン型の意思決定のどちらが優れていのだろうか。ジェフリー・マー氏は、同氏がどのようにデータを活用してブラックジャックと起業家で成功したのか紹介する。

(2015/12/10)

“ユニコーン”なデータサイエンティストは不要、専門家不在でもうまく回る企業とは

データサイエンティストはビッグデータアナリティクスで貴重な役割を果たせるが、あらゆる企業に必要というわけではなさそうだ。データサイエンティストがいなくても技術と企業文化で課題の克服に挑む企業もある。

(2015/12/1)

幸せになれる「RFP」の書き方 ビッグデータ分析ツール編

自社のニーズを満たすビッグデータ分析ツールを見極めるためには、しっかりとした評価ポイントを策定する必要がある。評価するためポイントを紹介する。

(2015/8/20)

「データサイエンティスト」として成功するための条件

データサイエンティストはデータを深く探求できなければならない。データサイエンティストと他の分析の専門家を区別するものは何だろうか。

(2015/3/9)

「Googleがあればどんな情報でも探せる」という俗説をいまだに信じる人

21世紀の情報ガバナンスに関する5つの根強い俗説について専門家が検証する。データ管理プロセスをデジタル時代に合わせて適応させることはそれほど難しくない。

(2014/10/21)

SFの世界に近づいているビッグデータ活用

希望には恐怖が伴う。ビッグデータ活用の可能性には、プライバシーの侵害や、解釈ミスによるビッグミステークという恐怖が付いて回っている。

(2013/7/19)

1600万人ユーザーのSNSを手に入れたAmazon、ベゾス氏の狙いは

ソーシャルネットワークはAmazonの世界制覇計画に欠けている部分だった。今、彼らはそれを手にいれた。ジェフ・ベゾス氏の判断が他社のサービスに与える影響とは。

(2013/4/26)

データを意思決定につなげる知的なBIとは

データは知識に変えることができれば役に立つ。そして、知識はより良い決断に生かすことができれば役に立つ。

(2008/6/6)

日本IBM、企業のSOA環境への移行を支援する3種類のサービスを発表

2種類の段階的なコンサルティングと、SOA環境の実装支援サービスを提供

(2007/7/11)

ビッグデータの用途と6つの「V」を解説

ビッグデータはどのように使われているのか

 企業はビッグデータをシステムに組み込むことで、業務効率を向上させたり、より良い顧客サービスを提供したり、顧客一人一人にパーソナライズした販促キャンペーンを実行したりできる。

 ビッグデータを効果的に利用する企業は、事業判断のスピードと正確性を向上させて、競争力を高められる可能性がある。例えばビッグデータは、顧客に関する貴重な洞察を提供する。こうした洞察は企業のマーケティング活動を洗練させて、顧客の満足度を向上させるために利用できる。過去のデータとリアルタイムのデータの両方を分析することで、消費者や顧客企業の需要の変化を評価して、すぐにその需要に合わせられるようになる。

 医師は疾患の兆候とリスクを特定したり、診断を補助したりするためにビッグデータを利用できる。感染症対策にも有用だ。医療機関や電子健康記録やソーシャルメディア、Webサイト、その他の情報源からのデータを収集して組み合わせて分析することで、感染症の発生状況や患者者数の予測ができる。

 他にもさまざまな業界でビッグデータが使われている。

  • 石油会社やガス会社は、資源の掘削ができる新しい場所の特定や、パイプラインの運用監視のためにビッグデータを利用している。
  • 金融サービス企業は、ビッグデータを利用してリスク管理や市場データのリアルタイム分析を実施している。
  • 製造業者や輸送会社は、サプライチェーンの管理や配送ルートの最適化のためにビッグデータを利用している。

ビッグデータに含まれるデータの種類とは

 ビッグデータは、取引処理システムや顧客データベース、電子メール、医療記録、インターネットのクリックログ、モバイルアプリケーション、ソーシャルネットワークなど、さまざまなデータ源から生じる。テキスト形式のデータに加えて画像や動画、オーディオファイルもまた、ビッグデータの形態だ。

 ネットワークやサーバのログファイル、製造機械、IoT(モノとインターネット)デバイスからのセンサーデータなど、機械が生成するデータもビッグデータに含まれる。組織の業務システムが取得したデータに加えて、金融市場や気象、交通状況などに関する統計データや地理情報、科学研究など、組織外から取得したデータをビッグデータとして扱うこともある。

ビッグデータの「V」とは何か

 ビッグデータを表す3つのVという概念がある。3つのVは、それぞれ以下の意味を持つ。

  • Volume(データの量)
    • データの量を指す。ビッグデータは膨大な量のデータを扱うことが特徴で、データ量がテラバイト(TB)からペタバイト(PB)、さらにはエクサバイト(EB)規模に及ぶことがある。
  • Variety(データの種類)
    • データの種類の多様性を指す。ビッグデータは表形式のデータなどの構造化データとログファイルやJSON形式のデータなどの半構造化データ、テキストや動画などの非構造化データの全てを含む。
  • Velocity(データの速度)
    • データの生成、収集、処理の速度を指す。ビッグデータシステムはリアルタイムまたはほぼリアルタイムでデータを生成、収集し、迅速に処理や分析を必要がある。

 3つのVは2001年に調査会社META Groupのアナリストだったダグ・ラニー氏が提唱した。最近ではデータの正しさ(Veracity)や価値(Value)、変動性(Variability)など、他のVを追加して、ビッグデータについて説明することもある。これらのVには以下の意味合いがある。

  • データの正しさ(Veracity)
    • 真実性は、データセットの精度と信頼性を指す。さまざまなソースから収集されたそのままのデータは、データ分析のときに問題を引き起こす可能性がある。そのデータをデータクレンジング技術で修正することで、分析精度と信頼性を向上できる。
  • 価値(Value)
    • 収集されたデータの全てが、実際のビジネスで価値を持つわけではない。組織はビッグデータ分析プロジェクトでデータを使う前に、プロジェクトで解決したい課題にそのデータが関係していることを確認する必要がある。
  • 変動性(Variability)
    • 収集するデータの変動の大きさや不規則性を指す。具体的には、データが時間の経過とともにどのように変動するか、または一貫性を欠くパターンを示すかを意味する。変動性の高いデータを扱う場合は、その不規則性に対処する必要があるため、ビッグデータの管理と分析を複雑にする。