【製品動向】低価格化や辞書充実が進む「データクレンジング/名寄せ」オープンソースベースのツールも登場

データの不備や重複を解消する「データクレンジング/名寄せ製品」。OSS化などで導入のハードルを下げたり、分析機能を追加するといった動きがある。最新動向をまとめた。

2012年12月06日 08時00分 公開
[鳥越武史,TechTargetジャパン]

 住所/会社名の間違いに、記入漏れや表記揺れ――。ビジネスインテリジェンス(BI)などの分析ツールを導入したとしても、データにあるこうした不完全な部分を放置しておけば、意味のある分析結果を得ることはできない。データをきれいにし、使えるデータにするために役立つのが、「データクレンジング/名寄せ製品」である。本稿は、データクレンジング/名寄せ製品の最新動向を示す。

データクレンジング/名寄せ製品の現状

 データクレンジング/名寄せ製品は、データの表記の統一や類似データの突き合わせなどを自動実行する。存在しない会社名や地名など、明らかに間違ったデータを排除したり、同一人物なのに複数の顧客マスターが存在するといった重複データを特定する機能を持つ。

 一般的なデータクレンジング/名寄せ製品は、「クレンジング」「名寄せ」の2段階の処理をする。クレンジングでは、データの表記内容をルールに従って統一したり、内容の修正や補完を実施する。名寄せでは、クレンジングしたデータを対象に、複数のデータの中から同一データを特定する。

 データクレンジング/名寄せの専用製品に加え、ETLツールの一部がクレンジング/名寄せ機能を搭載する。例えば、SAPジャパンのETL製品「SAP BusinessObjects Data Services」は、データクレンジング/名寄せモジュールである「SAP BusinessObjects Data Quality Management」を用意する。

 リアライズやデータ総研といったデータマネジメントのコンサルティング企業などは、データクレンジング/名寄せをサービスとして提供している。エニイの「データクレンジング」など、ユーザー企業にスタッフが出張し、社外に持ち出せないデータのクレンジングを実施するサービスもある。

製品動向1:辞書の工夫で精度を向上

 データクレンジング/名寄せ製品は、省略された会社名を補完したり、合併後の正確な市区町村名に修正する際などに、住所や人名・企業名などに関する辞書を参照する。辞書の充実度が、クレンジングや名寄せの精度を左右する大きな要素となる。

 データクレンジング/名寄せの精度を高めるべく、各ベンダーとも辞書の提供方法や作成方法に工夫を凝らす。富士通のデータクレンジング/名寄せ製品「Interstage Information Quality」は、最新版の住所辞書を毎月提供する「住所辞書更新サービス」を有償オプションとして提供する。

 アグレックスがデータクレンジング/名寄せ製品「TS Quality」に採用している全国住所マスター「ADDRESS」は、京都地区については行政名に加え、公称として使用されている「通称名」も収録。1975年の提供開始時から蓄積した、累計約30万件の住所情報が収録されている。

製品動向2:OSSなどで製品価格を抑制

 欧米ベンダーを中心としたデータクレンジング/名寄せ製品の多くは、1サーバ当たり2000万円前後と価格が高いのがネックだ。導入のハードルを下げるべく、価格を抑えた製品を投入する動きがある。

Copyright © ITmedia, Inc. All Rights Reserved.

鬮ォ�エ�ス�ス�ス�ス�ス�ー鬯ィ�セ�ス�ケ�ス縺、ツ€鬩幢ス「隴取得�ス�ク陷エ�・�ス�。鬩幢ス「�ス�ァ�ス�ス�ス�、鬩幢ス「隴主�讓滂ソス�ス�ス�ス鬩幢ス「隴趣ス「�ス�ス�ス�シ鬩幢ス「隴乗��ス�サ�ス�」�ス�ス�ス�ス

製品資料 ジオテクノロジーズ株式会社

6つのユースケースから学ぶ、「人流データ」の効果的な活用方法

広告や小売、観光振興、まちづくりなど、さまざまな領域で導入が進む「人流データ」。その活用でどのような施策が可能になり、どのような効果が期待できるのか。人流データ活用の6つのユースケースを紹介する。

製品資料 ジオテクノロジーズ株式会社

基礎から解説:「人流データ」の特徴から活用におけるポイントまで

人の動きを可視化した「人流データ」。屋外広告の効果測定や出店計画、まちづくりや観光振興など幅広い領域で活用されている。その特徴を確認しながら、価値のある分析・活用につなげるためのポイントを解説する。

事例 アルテリックス・ジャパン合同会社

地図情報によるデータ分析作業を効率化、ゼンリングループ企業はどう実現した?

多くの企業でデータ活用が模索されているが、データ処理の煩雑さや属人化が課題となっている企業は少なくない。そこで注目したいのが、データ分析ツールの活用で課題を一掃した「ゼンリンマーケティングソリューションズ」の取り組みだ。

製品資料 サイオステクノロジー株式会社

ITインフラの自動化を実現、いま注目のクラウド型マネージドサービスの実力

複雑化を続けるITシステムの運用管理は、企業にとって大きな負担だ。そこで負担を軽減するものとして注目したいのが、クラウド上でさまざまな機能を利用できるマネージドサービスだ。本資料では、その詳細を解説する。

事例 プリサイスリー・ソフトウェア株式会社

SAPデータの処理時間を4分の1に短縮、ロクシタンはどうやって実現した?

SAP ERPを活用して、事業部門のデータ作成/変更を行っているロクシタンでは、マスターデータ管理の煩雑さに伴う、処理時間の長さが課題となっていた。これを解消し、SAPデータの処理時間を4分の1に短縮した方法とは?

驛「譎冗函�趣スヲ驛「謨鳴€驛「譎「�ス�シ驛「�ァ�ス�ウ驛「譎「�ス�ウ驛「譎「�ソ�ス�趣スヲ驛「譎「�ソ�スPR

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

【製品動向】低価格化や辞書充実が進む「データクレンジング/名寄せ」:オープンソースベースのツールも登場 - TechTargetジャパン データ分析 髫エ�ス�ス�ー鬨セ�ケ�つ€鬮ォ�ェ陋滂ソス�ス�コ�ス�ス

TechTarget驛「�ァ�ス�ク驛「譎「�ス�」驛「譏懶スサ�」�趣スヲ 髫エ�ス�ス�ー鬨セ�ケ�つ€鬮ォ�ェ陋滂ソス�ス�コ�ス�ス

鬩幢ス「隴取得�ス�ク陷エ�・�ス�。鬩幢ス「�ス�ァ�ス�ス�ス�、鬩幢ス「隴主�讓滂ソス�ス�ス�ス鬩幢ス「隴趣ス「�ス�ス�ス�シ鬩幢ス「隴乗��ス�サ�ス�」�ス�ス�ス�ス鬩幢ス「隴趣ス「�ス�ス�ス�ゥ鬩幢ス「隴趣ス「�ス�ス�ス�ウ鬩幢ス「�ス�ァ�ス�ス�ス�ュ鬩幢ス「隴趣ス「�ス�ス�ス�ウ鬩幢ス「�ス�ァ�ス�ス�ス�ー

2025/05/04 UPDATE

ITmedia マーケティング新着記事

news014.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news046.png

「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news026.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年4月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...