何の役にも立たない“低品質データ”はこうして生まれる:データクオリティーを保つ7つのベストプラクティス【第2回】
ビジネスにデータを活用する上で、高いデータクオリティーを確保することは重要だ。何がデータクオリティーを左右するのか。なぜデータの質が悪くなってしまうのか。それらに対する答えを提示する。
データクオリティー(データ品質)は重要だ。「低品質のデータは、資金の投入先を誤るなどの間違った意思決定につながることがある」と、データ分析ツールベンダー1010dataのCTO(最高技術責任者)であるテリー・セージ氏は言う。不正確もしくは無効なデータは、セキュリティインシデントの誤検出を招くなど、業務に悪影響を与える可能性がある。
何が「低品質データ」を生み出してしまうのか
併せて読みたいお薦め記事
連載:データクオリティーを保つ7つのベストプラクティス
企業のデータマネジメント戦略
正しい視点を持ってデータの重複排除や修正、検証ができたかどうか、どの程度うまく実行できたかでデータクオリティーの高低が決まる。高品質のデータは、使用目的に適合していれば、より良い意思決定と成果をもたらす。低品質のデータは、顧客や消費者の信頼を低下させる恐れがある。データが誤りだらけだと、修正に時間と人手を浪費する。
「低品質なデータによって、企業はビジネス判断を誤り、販売機会や顧客を喪失しかねない」。ITコンサルティング企業Mindtreeのテクノロジーサービス部門グローバルヘッドであるラーダークリシュナン・ラジャゴパラン氏は、そう述べる。
収集経路が広がると増える課題
データパイプライン(さまざまなデータソースからデータを取り込む手段)がデータクオリティーに与える影響はさまざまだ。データを集約する経路が増えるほど、次の2つの要因によってデータクオリティーを保つのが難しくなる。
1つ目は、データソースからデータレイクやデータウェアハウスにデータを転送する際に、データが失われたり、重複したりする可能性があることだ。例えばクラウドサービスからデータを送信する際、システムの問題により、しばしばデータの送信漏れが発生する恐れがある。
2つ目は、データソースのシステムにおけるデータに想定外のばらつきがあり、転送先のシステムにおいてデータクオリティーの問題が発生することだ。データタイプ変更といったデータモデルのわずかな変更でも、転送先システムにデータの大きなばらつきをもたらす可能性がある。
第3回からは、データクオリティーを確保するための7つのベストプラクティスを紹介する。
TechTarget発 先取りITトレンド
米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.