ビッグデータは、大量かつ多様なデータと、そのデータを高速で収集、処理、分析するための技術を指す。ビッグデータには構造化データと半構造化データ、非構造化データが含まれ、これらは機械学習や予測モデル、その他の高度なデータ分析アプリケーションで使用される。
RDBMSは組織のデータ管理を担う。さまざまなRDBMS製品が存在する中、組織はどのような観点でRDBMS製品を採用したり、置換したりしているのか。読者調査の結果から探る。
Googleが提供しているビッグデータ分析サービスは多彩だ。中には「Google検索」「Googleアナリティクス」などの裏側で稼働するシステムを基にしたサービスもある。5つの主要サービスをピックアップして説明する。
企業は、ビッグデータの処理基盤をクラウドに移している。この動きは、それまでのITスキルを覆すことはないが、管理者や開発チームには幾つか変化が求められるだろう。
AWSはIT人材を育成するための幾つかの施策に取り組んでいる。同社が奨学金制度や、女子生徒向けの教育プログラムを提供する狙いとは。
連続的に発生し続けるデータを処理するミドルウェア「Kafka」のユーザー企業には、PorscheやSony Interactive Entertainmentといった著名企業もある。彼らはKafkaをどう活用し、競争力の向上を図っているのか。
BMWは、連続的に発生し続けるデータを処理するミドルウェア「Kafka」を自動車製造に役立てているという。どのように活用しているのか。同社責任者の話を基にコンパクトに紹介する。
ハイスペックなGPUサーバは高額であり、サーバ管理も専門的なノウハウが必要なため、導入のハードルが非常に高い。中小企業におけるそんな悩みを解消し、ビジネスを強力に後押しするGPUクラウドサービスとは。
改ざん防止に主眼を置いたデータベースがOSSで登場した。オンラインデモやDocker、Kubernetesインストールもサポートしており、取りあえず試してみることができる。百聞は一見にしかずだ。
何の前処理も行っていないデータレイクから必要なデータだけを取り出してデータウェアハウスにインポートして……と、データ分析には手間が掛かる。オープンデータレイク分析は煩雑な部分をまとめて処理する。
ビジネスの意思決定にビッグデータを活用する際、その取り組みを成功させるポイントは幾つかある。どのような点から着手し、どのような点に気を付ければよいのか。課題とポイントを紹介する。
NHS Englandは新しい医療データ基盤の構築計画を発表した。「公共の信頼を獲得できるよう、同じ失敗は繰り返さない」という意気込みの背景には、どのような出来事があったのか。
システム連携の課題は、相手のシステムにどう対応させるかにある。個別対応では開発リソースとコストがかかり過ぎる。OSSの分散イベントストリーミング基盤である「Apache Kafka」がそうした課題を解決する。
データ分析分野における製品/サービスの調達を加速させる英国政府。どのような観点から、何を重視して製品/サービスの導入を進めようとしているのか。
経営層がデータを倫理的に扱うと決めても、現場にその意図が伝わらなければ意味がない。どのようにすればよいのか。Salesforceをはじめとする先駆的企業の取り組みを基に考える。
「いつか何かに使うかもしれない」といった考えで、目的が不明瞭なまま集められるだけのデータを取得しようとすることは望ましいことではない。そうした企業は、大きな代償を払うことになる可能性があるからだ。
大量のデータをビジネスに生かす「データ駆動型ビジネス」。その推進に当たり、データ分析者の焦りや先入観が思わぬ落とし穴になりかねない。
2012年7月に電子行政オープンデータ戦略が策定されて以来、にわかに盛り上がりを見せているオープンデータ。オープンデータとは何をもたらすものなのか。「Open Definition」の定義にならい、オープンデータの本質を導き出す。
2016年米大統領選挙の予想外の結果は、携帯電話しか持たない世帯が主流になった時代における世論調査の在り方に多くの疑問を投げ掛けた。
「Watson」の応用進展やビッグデータ活用の普及など、動きが激しいデータ分析市場。2016年の分析市場はどのように動くのだろうか。
企業はビッグデータをシステムに組み込むことで、業務効率を向上させたり、より良い顧客サービスを提供したり、顧客一人一人にパーソナライズした販促キャンペーンを実行したりできる。
ビッグデータを効果的に利用する企業は、事業判断のスピードと正確性を向上させて、競争力を高められる可能性がある。例えばビッグデータは、顧客に関する貴重な洞察を提供する。こうした洞察は企業のマーケティング活動を洗練させて、顧客の満足度を向上させるために利用できる。過去のデータとリアルタイムのデータの両方を分析することで、消費者や顧客企業の需要の変化を評価して、すぐにその需要に合わせられるようになる。
医師は疾患の兆候とリスクを特定したり、診断を補助したりするためにビッグデータを利用できる。感染症対策にも有用だ。医療機関や電子健康記録やソーシャルメディア、Webサイト、その他の情報源からのデータを収集して組み合わせて分析することで、感染症の発生状況や患者者数の予測ができる。
他にもさまざまな業界でビッグデータが使われている。
ビッグデータは、取引処理システムや顧客データベース、電子メール、医療記録、インターネットのクリックログ、モバイルアプリケーション、ソーシャルネットワークなど、さまざまなデータ源から生じる。テキスト形式のデータに加えて画像や動画、オーディオファイルもまた、ビッグデータの形態だ。
ネットワークやサーバのログファイル、製造機械、IoT(モノとインターネット)デバイスからのセンサーデータなど、機械が生成するデータもビッグデータに含まれる。組織の業務システムが取得したデータに加えて、金融市場や気象、交通状況などに関する統計データや地理情報、科学研究など、組織外から取得したデータをビッグデータとして扱うこともある。
ビッグデータを表す3つのVという概念がある。3つのVは、それぞれ以下の意味を持つ。
3つのVは2001年に調査会社META Groupのアナリストだったダグ・ラニー氏が提唱した。最近ではデータの正しさ(Veracity)や価値(Value)、変動性(Variability)など、他のVを追加して、ビッグデータについて説明することもある。これらのVには以下の意味合いがある。