データの不備や重複を解消する「データクレンジング/名寄せ製品」。OSS化などで導入のハードルを下げたり、分析機能を追加するといった動きがある。最新動向をまとめた。
住所/会社名の間違いに、記入漏れや表記揺れ――。ビジネスインテリジェンス(BI)などの分析ツールを導入したとしても、データにあるこうした不完全な部分を放置しておけば、意味のある分析結果を得ることはできない。データをきれいにし、使えるデータにするために役立つのが、「データクレンジング/名寄せ製品」である。本稿は、データクレンジング/名寄せ製品の最新動向を示す。
データクレンジング/名寄せ製品は、データの表記の統一や類似データの突き合わせなどを自動実行する。存在しない会社名や地名など、明らかに間違ったデータを排除したり、同一人物なのに複数の顧客マスターが存在するといった重複データを特定する機能を持つ。
一般的なデータクレンジング/名寄せ製品は、「クレンジング」「名寄せ」の2段階の処理をする。クレンジングでは、データの表記内容をルールに従って統一したり、内容の修正や補完を実施する。名寄せでは、クレンジングしたデータを対象に、複数のデータの中から同一データを特定する。
データクレンジング/名寄せの専用製品に加え、ETLツールの一部がクレンジング/名寄せ機能を搭載する。例えば、SAPジャパンのETL製品「SAP BusinessObjects Data Services」は、データクレンジング/名寄せモジュールである「SAP BusinessObjects Data Quality Management」を用意する。
リアライズやデータ総研といったデータマネジメントのコンサルティング企業などは、データクレンジング/名寄せをサービスとして提供している。エニイの「データクレンジング」など、ユーザー企業にスタッフが出張し、社外に持ち出せないデータのクレンジングを実施するサービスもある。
データクレンジング/名寄せ製品は、省略された会社名を補完したり、合併後の正確な市区町村名に修正する際などに、住所や人名・企業名などに関する辞書を参照する。辞書の充実度が、クレンジングや名寄せの精度を左右する大きな要素となる。
データクレンジング/名寄せの精度を高めるべく、各ベンダーとも辞書の提供方法や作成方法に工夫を凝らす。富士通のデータクレンジング/名寄せ製品「Interstage Information Quality」は、最新版の住所辞書を毎月提供する「住所辞書更新サービス」を有償オプションとして提供する。
アグレックスがデータクレンジング/名寄せ製品「TS Quality」に採用している全国住所マスター「ADDRESS」は、京都地区については行政名に加え、公称として使用されている「通称名」も収録。1975年の提供開始時から蓄積した、累計約30万件の住所情報が収録されている。
欧米ベンダーを中心としたデータクレンジング/名寄せ製品の多くは、1サーバ当たり2000万円前後と価格が高いのがネックだ。導入のハードルを下げるべく、価格を抑えた製品を投入する動きがある。
Copyright © ITmedia, Inc. All Rights Reserved.
多くの企業で「情報の分断」や「手作業によるデータ処理への依存」が課題となり、迅速な経営判断を阻害している。本資料では、クラウドとBIツールを活用した分析基盤を構築し、これらの課題を解決した2社の事例を紹介する。
データドリブン経営の必要性が叫ばれる今も、グローバルに拠点を展開する企業は、決算データの収集に時間がかかり、整合性をとるのも難しいなど、多くの課題を抱えている。この状況を改善するには、どのようなアプローチが有効だろうか。
デジタル化が進む中で、企業が競争力を維持するには、柔軟かつ迅速な分析体制を構築し、データドリブンな意思決定を実現することが不可欠だ。本資料では、その分析体制の構築を支援するクラウド型のデータ分析プラットフォームを紹介する。
Excelやスプレッドシートを用いて社内のデータを管理している企業は少なくない。しかし、それにより、データの閲覧や管理、共有などにおいて問題が発生している企業も多い。データ活用を加速するためには、どのような体制が有効なのか。
データ基盤はさまざまな恩恵をもたらすが、複雑な環境でメリットを最大限に引き出すには、コストやパフォーマンス、セキュリティの最適化が欠かせない。そのカギとなる「オブザーバビリティ(可観測性)」をどう実現すればよいのか。
「人の動き」で見えない価値を見つけ出す 人流データが切り開く都市開発の未来 (2025/5/2)
導入の壁を突破してMicrosoft 365 Copilotを活用する方法 (2025/3/12)
クラウドの利便性とオンプレの制御性を両立、AI環境構築の新たな選択肢とは? (2025/3/6)
データ活用やAIで不良原因も発見 全員参加の現場伴走型で挑むトヨタ車体のDX (2025/2/21)
「テレワークでネットが遅い」の帯域幅じゃない“真犯人”はこれだ
ネットワークの問題は「帯域幅を増やせば解決する」と考えてはいないだろうか。こうした誤解をしているIT担当者は珍しくない。ネットワークを快適に利用するために、持つべき視点とは。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...