「ビッグデータ」徹底比較 選び方、お薦め製品は?

ユーザー企業のIT担当者を対象に、IT製品/サービスの導入・購買に役立つ情報を提供する無料の会員制メディア「TechTargetジャパン」。このコンテンツでは、ビッグデータに関する比較の記事を紹介します。製品/サービス選定の参考にご覧ください(リンク先のページはPR記事を含みます)。

ビッグデータとは何か

 ビッグデータは、大量かつ多様なデータと、そのデータを高速で収集、処理、分析するための技術を指す。ビッグデータには構造化データと半構造化データ、非構造化データが含まれ、これらは機械学習や予測モデル、その他の高度なデータ分析アプリケーションで使用される。

ビッグデータ関連の比較

「プロプライエタリ」と「OSS」のRDBMS、読者が考えるそれぞれの魅力とは?

RDBMSは組織のデータ管理を担う。さまざまなRDBMS製品が存在する中、組織はどのような観点でRDBMS製品を採用したり、置換したりしているのか。読者調査の結果から探る。

(2021/9/30)

「Googleマップ」「Gmail」を支えるシステムも GCPのビッグデータ分析サービス

Googleが提供しているビッグデータ分析サービスは多彩だ。中には「Google検索」「Googleアナリティクス」などの裏側で稼働するシステムを基にしたサービスもある。5つの主要サービスをピックアップして説明する。

(2019/7/31)

ビッグデータで輝くITスキルは、舞台がクラウドに移るとどう変わるのか?

企業は、ビッグデータの処理基盤をクラウドに移している。この動きは、それまでのITスキルを覆すことはないが、管理者や開発チームには幾つか変化が求められるだろう。

(2018/3/12)

甘く見てはいけないWorkplace by FacebookとAmazon Chime、コラボツール市場は波乱の展開へ

Facebookがユニファイドコミュニケーション(UC)の一団に加わった。負けじとAmazonも参入し、UC市場は巨大な2つのディスプラプター登場により波乱の展開を迎えつつある。

(2017/11/30)

データ分析が強みの人気クラウド、その豊富な機能とは

「Microsoft Azure」と「IBM Bluemix」には数多くのデータ分析機能が存在する。こうした機能を活用したデータ分析の手法、各サービスの特徴をまとめた。

(2017/11/2)

OSSやクラウド(AWS、GCP)を使ったビッグデータ分析、基本的な流れをつかもう

クラウドベンダー各社は、データ分析に特化したクラウドサービス提供に注力している。こうしたクラウドサービスやOSSツールを活用したビッグデータ分析の基本的な流れを紹介する。

(2017/10/31)

レガシープロトコル vs. NVMeで見えてくるNVMeの存在感

ストレージプロトコルのパフォーマンスの問題を解決するために生み出された新しいプロトコルがNVMeだ。これを利用するための具体的な実装方法は3つある。どれを選ぶべきなのか。

(2017/8/7)

Yahoo!がSpark/Hadoop環境で使える「TensorFlowOnSpark」をリリース

Yahoo!の機械学習チームが、分散ディープラーニングに対応したTensorFlowである「TensorFlowOnSpark」を公開した。TensorFlowOnSparkが必要な背景を解説する。

(2017/4/12)

「Hadoopの時代は終わる」 ビッグデータ解析で主役が入れ替わる“ストレージ的”理由

最高技術責任者(CTO)たちが予測する2017年のエンタープライズストレージ市場。後編ではデータ分析とセキュリティにおけるストレージの影響に言及する。

(2017/3/8)

「脱Excel」「機械学習」「IoT」、データ分析関連で読者が注目したのはどんな話題?

2016年、データ分析関連の記事で最も読まれたのはどんなテーマだったのか。TechTargetジャパンの関連記事ランキングから探ります。

(2017/1/4)

「データを認識できるストレージ」が企業システムを“勝手に”最適化する

ストレージシステムが自分に保存しているデータの詳細を把握できるようになったとき、アプリケーションも相性に合わせた最適な使い方を自ら選べるようになるという。

(2016/11/22)

稼働率100%を目指すビッグデータ向けDBMS「NuoDB」と期待の新製品群

新しいDBMS製品の多くはダウンタイムに対処するために登場している。つまり稼働率100%の実現だ。大量トランザクション処理を目的に作られた新種のDBMS製品「NuoDB」とは。

(2016/9/26)

ビッグデータを高速分散処理するSparkをAWSで動かすと何がすごいのか

「Amazon Web Services」(AWS)のHadoopサービスとして特に魅力的なのが「Apache Spark」である。「Amazon Elastic MapReduce」と連係して高速処理や多用途性を実現する。

(2016/9/12)

クラウドSparkの導入、思い込みとは正反対の「本当のメリット」とは?

「Apache Spark」の商用ディストリビューションの多くには、クラウドのオプションが用意されており、顧客から人気を博している。だからといって、それがあらゆる状況で役に立つわけではない。

(2016/8/15)

Googleが提供するビッグデータ分析サービスの基礎知識

「Google Cloud Platform」で提供される各種ビッグデータサービスの全体像について案内するのは容易ではないが、本稿ではGoogleが提供しているサービスの一つ一つについて分かりやすく紹介してみたい。

(2016/8/9)

HDFSの落とし穴を回避する商用「Hadoop」ディストリビューション3選

HDFSで一般的なデータ保護とパフォーマンスの問題を回避する代替策となる3つの商用Hadoopディストリビューションを紹介する。

(2016/7/20)

「IBM Watson」への高過ぎる期待、ビジネス成功への鍵は開発者?

IBMは米国の人気クイズ番組「Jeopardy!」で脚光を浴びたWatsonをベースとした製品を作って、再び世間の関心を集めようとしている。

(2016/5/23)

試行錯誤する価値があるオープンソースデータベース

コストが高く魅力のないプロプライエタリデータベースの代替として、多くの企業がよりアジャイルなオープンソース製品に目を向けている。自社のニーズに最も合ったものを選ぶためには試行錯誤が必要だ。

(2016/3/23)

AWSすら青ざめる? 中国“アリババストレージ”の衝撃

中国Alibaba Groupのインフラエンジニアが公開したコールドストレージエンジンでは、SDS(ソフトウェア定義ストレージ)の性能や容量の課題解決に向けた改良を進めている。

(2016/3/18)

Hadoopに社運を賭けるモバイル広告ネットワーク企業の事情

モバイル広告ネットワーク企業Billy Mobileは、Hadoopを中核とするビッグデータ分析環境に社運を賭ける。Kafka、Spark、Storm、Hive、HBaseで構築した意思決定アルゴリズムとは?

(2016/2/12)

ビッグデータの用途と6つの「V」を解説

ビッグデータはどのように使われているのか

 企業はビッグデータをシステムに組み込むことで、業務効率を向上させたり、より良い顧客サービスを提供したり、顧客一人一人にパーソナライズした販促キャンペーンを実行したりできる。

 ビッグデータを効果的に利用する企業は、事業判断のスピードと正確性を向上させて、競争力を高められる可能性がある。例えばビッグデータは、顧客に関する貴重な洞察を提供する。こうした洞察は企業のマーケティング活動を洗練させて、顧客の満足度を向上させるために利用できる。過去のデータとリアルタイムのデータの両方を分析することで、消費者や顧客企業の需要の変化を評価して、すぐにその需要に合わせられるようになる。

 医師は疾患の兆候とリスクを特定したり、診断を補助したりするためにビッグデータを利用できる。感染症対策にも有用だ。医療機関や電子健康記録やソーシャルメディア、Webサイト、その他の情報源からのデータを収集して組み合わせて分析することで、感染症の発生状況や患者者数の予測ができる。

 他にもさまざまな業界でビッグデータが使われている。

  • 石油会社やガス会社は、資源の掘削ができる新しい場所の特定や、パイプラインの運用監視のためにビッグデータを利用している。
  • 金融サービス企業は、ビッグデータを利用してリスク管理や市場データのリアルタイム分析を実施している。
  • 製造業者や輸送会社は、サプライチェーンの管理や配送ルートの最適化のためにビッグデータを利用している。

ビッグデータに含まれるデータの種類とは

 ビッグデータは、取引処理システムや顧客データベース、電子メール、医療記録、インターネットのクリックログ、モバイルアプリケーション、ソーシャルネットワークなど、さまざまなデータ源から生じる。テキスト形式のデータに加えて画像や動画、オーディオファイルもまた、ビッグデータの形態だ。

 ネットワークやサーバのログファイル、製造機械、IoT(モノとインターネット)デバイスからのセンサーデータなど、機械が生成するデータもビッグデータに含まれる。組織の業務システムが取得したデータに加えて、金融市場や気象、交通状況などに関する統計データや地理情報、科学研究など、組織外から取得したデータをビッグデータとして扱うこともある。

ビッグデータの「V」とは何か

 ビッグデータを表す3つのVという概念がある。3つのVは、それぞれ以下の意味を持つ。

  • Volume(データの量)
    • データの量を指す。ビッグデータは膨大な量のデータを扱うことが特徴で、データ量がテラバイト(TB)からペタバイト(PB)、さらにはエクサバイト(EB)規模に及ぶことがある。
  • Variety(データの種類)
    • データの種類の多様性を指す。ビッグデータは表形式のデータなどの構造化データとログファイルやJSON形式のデータなどの半構造化データ、テキストや動画などの非構造化データの全てを含む。
  • Velocity(データの速度)
    • データの生成、収集、処理の速度を指す。ビッグデータシステムはリアルタイムまたはほぼリアルタイムでデータを生成、収集し、迅速に処理や分析を必要がある。

 3つのVは2001年に調査会社META Groupのアナリストだったダグ・ラニー氏が提唱した。最近ではデータの正しさ(Veracity)や価値(Value)、変動性(Variability)など、他のVを追加して、ビッグデータについて説明することもある。これらのVには以下の意味合いがある。

  • データの正しさ(Veracity)
    • 真実性は、データセットの精度と信頼性を指す。さまざまなソースから収集されたそのままのデータは、データ分析のときに問題を引き起こす可能性がある。そのデータをデータクレンジング技術で修正することで、分析精度と信頼性を向上できる。
  • 価値(Value)
    • 収集されたデータの全てが、実際のビジネスで価値を持つわけではない。組織はビッグデータ分析プロジェクトでデータを使う前に、プロジェクトで解決したい課題にそのデータが関係していることを確認する必要がある。
  • 変動性(Variability)
    • 収集するデータの変動の大きさや不規則性を指す。具体的には、データが時間の経過とともにどのように変動するか、または一貫性を欠くパターンを示すかを意味する。変動性の高いデータを扱う場合は、その不規則性に対処する必要があるため、ビッグデータの管理と分析を複雑にする。