ビッグデータは、大量かつ多様なデータと、そのデータを高速で収集、処理、分析するための技術を指す。ビッグデータには構造化データと半構造化データ、非構造化データが含まれ、これらは機械学習や予測モデル、その他の高度なデータ分析アプリケーションで使用される。
ビジネスの意思決定にビッグデータを活用する際、その取り組みを成功させるポイントは幾つかある。どのような点から着手し、どのような点に気を付ければよいのか。課題とポイントを紹介する。
NHS Englandは新しい医療データ基盤の構築計画を発表した。「公共の信頼を獲得できるよう、同じ失敗は繰り返さない」という意気込みの背景には、どのような出来事があったのか。
システム連携の課題は、相手のシステムにどう対応させるかにある。個別対応では開発リソースとコストがかかり過ぎる。OSSの分散イベントストリーミング基盤である「Apache Kafka」がそうした課題を解決する。
セキュリティとプライバシーの問題がビッグデータ活用の障壁になる可能性がある。これらを解決するための鍵を握るのがデータガバナンスだ。どうすればビッグデータ活用を成功させることができるのだろうか。
データ活用の目的を明確にすれば、どのようなデータを収集すればいいのかも見えてくる。ただし問題はそれだけではない。ビッグデータの活用に当たっては、企業はどのような課題を乗り越える必要があるのか。
ビッグデータをビジネスの意思決定に生かすには、必要なデータを効果的に収集する仕組みが不可欠だ。ビッグデータ活用を失敗させないために、まずどのような点から着手すればいいのか。
ストリーム処理を実現する「Apache Kafka」は、どのような場面で役立っているのか。米国における新型コロナウイルス感染症の臨床実験データ収集プロジェクトでの活用事例を紹介する。
宣伝文句が先行した結果、ブロックチェーンの周辺ではさまざまな問題が生じている。Gartnerは、安全性を確保し、陳腐化を防ぐためにブロックチェーン基盤のリプレースが必要と主張している。
データを処理する新しい方法としてGPUデータベースの活用が始まっている。ビッグデータの並列処理を中心に話を聞いた。
自動運転車は既に素晴らしい成果を挙げているが、他のドライバーへの動作による合図はまだ実現できていない。この問題は解決する必要があると、MIT Disruption Timeline Conferenceで専門家が指摘した。
「モノのインターネット」(IoT)により、生活は便利になり、ビジネスにさまざまな良い効果が生まれている。だが、IoTによって新しく考えなければいけない課題がある。
オープンソースのデータ可視化技術が成熟化し、ユーザーは、「現在入手可能なツールは多様な可視化ワークロードに対応できる」と歓迎している。
さまざまな定義が存在するビッグデータ。医療・ライフサイエンスのエキスパートは、医療ビッグデータでは5つの「V」が重要になると語る。医療ビッグデータを支えるインフラ基盤を探る。
過大な期待が寄せられたビッグデータのブームが終了し、実用的な技術が次々に登場している。データ分析のトレンドや技術の最新動向を紹介する。
ビッグデータがこれだけ取り沙汰されているにもかかわらず、多くの人々にとって実態のよく分からないものになっている。米Gartnerのアナリストがビッグデータにまつわる事実と迷信を区別する。
情報システムにおいて最も重要なのはデータだ。そのデータを保護し、活用するための最新トレンドやツールを紹介する。
未来の技術といわれていた“認識コンピューティング”は米Appleの「Siri」や米IBMの「Watson」などの先行技術の登場で急速に実用化しつつある。どのような世界が実現されるのだろうか。
小売業を支えるバリューチェーン。そこでは、顧客情報や商品情報などさまざまなデータが日々蓄積されている。そうしたデータを適切に管理、活用することで、バリューチェーンの効率化と利益の増大へとつながる。
米PayPalが抱えるデータの99.9%は、テキストや画像などの非構造化データだという。同社の主席データサイエンティストが、非構造化データ活用の際に重要になる要素を示す。
企業はビッグデータをシステムに組み込むことで、業務効率を向上させたり、より良い顧客サービスを提供したり、顧客一人一人にパーソナライズした販促キャンペーンを実行したりできる。
ビッグデータを効果的に利用する企業は、事業判断のスピードと正確性を向上させて、競争力を高められる可能性がある。例えばビッグデータは、顧客に関する貴重な洞察を提供する。こうした洞察は企業のマーケティング活動を洗練させて、顧客の満足度を向上させるために利用できる。過去のデータとリアルタイムのデータの両方を分析することで、消費者や顧客企業の需要の変化を評価して、すぐにその需要に合わせられるようになる。
医師は疾患の兆候とリスクを特定したり、診断を補助したりするためにビッグデータを利用できる。感染症対策にも有用だ。医療機関や電子健康記録やソーシャルメディア、Webサイト、その他の情報源からのデータを収集して組み合わせて分析することで、感染症の発生状況や患者者数の予測ができる。
他にもさまざまな業界でビッグデータが使われている。
ビッグデータは、取引処理システムや顧客データベース、電子メール、医療記録、インターネットのクリックログ、モバイルアプリケーション、ソーシャルネットワークなど、さまざまなデータ源から生じる。テキスト形式のデータに加えて画像や動画、オーディオファイルもまた、ビッグデータの形態だ。
ネットワークやサーバのログファイル、製造機械、IoT(モノとインターネット)デバイスからのセンサーデータなど、機械が生成するデータもビッグデータに含まれる。組織の業務システムが取得したデータに加えて、金融市場や気象、交通状況などに関する統計データや地理情報、科学研究など、組織外から取得したデータをビッグデータとして扱うこともある。
ビッグデータを表す3つのVという概念がある。3つのVは、それぞれ以下の意味を持つ。
3つのVは2001年に調査会社META Groupのアナリストだったダグ・ラニー氏が提唱した。最近ではデータの正しさ(Veracity)や価値(Value)、変動性(Variability)など、他のVを追加して、ビッグデータについて説明することもある。これらのVには以下の意味合いがある。