ビッグデータは、大量かつ多様なデータと、そのデータを高速で収集、処理、分析するための技術を指す。ビッグデータには構造化データと半構造化データ、非構造化データが含まれ、これらは機械学習や予測モデル、その他の高度なデータ分析アプリケーションで使用される。
データドリブンの経営を目指す動きが広がる中、データ活用の大前提となるのがさまざまなシステムに分散したデータの統合だ。データ集約はできても中身の整理ができていなくてはどうにもならない。この最初にして最大の課題をどうするか。
メインフレームなどを中心とするレガシーシステムからビッグデータ環境へのデータ移行時に企業が抱える課題をどう解決すればいいのか。
真のデータドリブン経営の実現には、レガシーシステムを含めたデータ統合が必要になる。だが品質を確保するには従来のETLツールでは限界がある。どうするか。
基幹系データを活用しつつ、ビッグデータに備えたシステム構築に必要なシステムアーキテクチャとは。SAP HANA VoraとMapRを連携させ、Lenovoサーバ上で動作させる検証を基に、3社およびCTCの4社が共同でベストプラクティスを提案。
誰もが膨大なデータを扱うことが当たり前になれば、そこにはシステムの課題も生まれる。肥大化するデータソースの負荷に耐えストレスのない高速な処理を実現できるデータベースサーバに何を選ぶかは特に悩ましい。
「ビジネスのデジタル化」が進む中、顧客から集まる膨大なデータを素早く分析し、ビジネスに生かす必要がある。それを実践するヤフーや資生堂は、高速レスポンスのITインフラ基盤をどのように構築したのだろうか。
ビッグデータ時代の本格到来を控え、膨大な量のデータ管理に頭を悩ませているITスタッフも多いことだろう。どうすれば費用対効果に優れた管理基盤を整備することができるのか。
顧客の声を企業戦略に反映するためには、顧客を「個」として考える「個客中心」への転換が必要だ。個客中心へと転換するために必要なスキルを養うオンライン講座を、「お薦めお鍋診断」とともに紹介する。
新しいDWHプラットフォームを導入しても、期待していたほどのスケールアウトができなかったり、カタログスペックの性能が出ていなかったりすれば意味がない。その不安を事前に解消する方法はないのだろうか。
ビッグデータ分析と関連して注目される「データサイエンティスト」。彼らはどのような仕事をし、どのような価値を企業に提供しているのか。実際にデータ分析に関わるデータサイエンティストが座談会で語った。
大量データをどのように扱いビジネスに生かすか――企業のビッグデータへの取り組みはビジネスメリットを追求するフェーズに入りつつある。実践への道筋を示すワンストップサービスを紹介する。
目的にマッチした、高度な分析モデルを作成することができればビジネスで効果が挙げられる。しかし実際ビッグデータ分析を始めると、データの準備や処理時間という課題に直面する。どう解決すればいいのか?
ビジネスで大きな力となり得る「ビッグデータ」。活用したいけど「どこから始めればいいの」と考える読者も多いのではないだろうか。その悩みを解決する方法を紹介する。
バッチ処理を高速化したいが、余分な投資は抑えたい。その解決の鍵は、「仮想化」と「インメモリ」という2つの技術の組み合わせにあった。その具体像を探っていこう。
ハイスペックなGPUサーバは高額であり、サーバ管理も専門的なノウハウが必要なため、導入のハードルが非常に高い。中小企業におけるそんな悩みを解消し、ビジネスを強力に後押しするGPUクラウドサービスとは。
改ざん防止に主眼を置いたデータベースがOSSで登場した。オンラインデモやDocker、Kubernetesインストールもサポートしており、取りあえず試してみることができる。百聞は一見にしかずだ。
何の前処理も行っていないデータレイクから必要なデータだけを取り出してデータウェアハウスにインポートして……と、データ分析には手間が掛かる。オープンデータレイク分析は煩雑な部分をまとめて処理する。
AWSは、新たなデータクレンジング/ETLツール「AWS Glue DataBrew」を発表した。コードを記述することなく、データ分析の準備を整えることができる。
企業が保有するデータは、新たなビジネスを生み出す資産だ。しかし、大量のデータを処理する作業に追われて肝心の分析がおろそかになっていないだろうか。データサイエンティストのいない企業で、AIによるデータ分析を実現する方法とは。
データをビジネスに活用する機運が高まっているが、データ分析の実現にはさまざまな課題と向き合う必要がある。これらを解決し、データの活用を推進するためには何から始めればいいのだろうか。複数の観点から語り合った。
企業が保有するデータがペタバイト規模へと急増する中、データの保護や管理に追われ、価値を引き出すことができないケースが目立ち始めた。これを解決するのが、優れた重複排除や圧縮機能を備えた、次世代のストレージだ。
企業を取り囲む環境は変化しており、データが中心となるこれからのビジネスにおいてバックアップの仕組みは軽視できない。最新のバックアップ事情について紹介する。
今はポストHadoopの時代なのか。支持者に言わせれば、ビッグデータフレームワークの最新版「Apache Hadoop 3.0」は機械学習アプリケーションとクラウドシステムで成功を収めており、まだその時代は終わっていない。
データ分析に注目していても、その基盤を整えるためのコストや手間が障壁となっている企業は多い。しかし手の届くDWHがあれば、データ活用時代に競争力を増せるはずだ。
企業はビッグデータをシステムに組み込むことで、業務効率を向上させたり、より良い顧客サービスを提供したり、顧客一人一人にパーソナライズした販促キャンペーンを実行したりできる。
ビッグデータを効果的に利用する企業は、事業判断のスピードと正確性を向上させて、競争力を高められる可能性がある。例えばビッグデータは、顧客に関する貴重な洞察を提供する。こうした洞察は企業のマーケティング活動を洗練させて、顧客の満足度を向上させるために利用できる。過去のデータとリアルタイムのデータの両方を分析することで、消費者や顧客企業の需要の変化を評価して、すぐにその需要に合わせられるようになる。
医師は疾患の兆候とリスクを特定したり、診断を補助したりするためにビッグデータを利用できる。感染症対策にも有用だ。医療機関や電子健康記録やソーシャルメディア、Webサイト、その他の情報源からのデータを収集して組み合わせて分析することで、感染症の発生状況や患者者数の予測ができる。
他にもさまざまな業界でビッグデータが使われている。
ビッグデータは、取引処理システムや顧客データベース、電子メール、医療記録、インターネットのクリックログ、モバイルアプリケーション、ソーシャルネットワークなど、さまざまなデータ源から生じる。テキスト形式のデータに加えて画像や動画、オーディオファイルもまた、ビッグデータの形態だ。
ネットワークやサーバのログファイル、製造機械、IoT(モノとインターネット)デバイスからのセンサーデータなど、機械が生成するデータもビッグデータに含まれる。組織の業務システムが取得したデータに加えて、金融市場や気象、交通状況などに関する統計データや地理情報、科学研究など、組織外から取得したデータをビッグデータとして扱うこともある。
ビッグデータを表す3つのVという概念がある。3つのVは、それぞれ以下の意味を持つ。
3つのVは2001年に調査会社META Groupのアナリストだったダグ・ラニー氏が提唱した。最近ではデータの正しさ(Veracity)や価値(Value)、変動性(Variability)など、他のVを追加して、ビッグデータについて説明することもある。これらのVには以下の意味合いがある。